Mask R-CNN

Mask Region-based CNN

Mask R-CNNとは

Mask R-CNN(Mask Region-based Convolutional Neural Network)とは、2017年にKaiming Heらによって提案されたインスタンスセグメンテーションモデルです。Faster R-CNNにマスク予測ブランチを追加したシンプルかつ強力なアーキテクチャで、物体の検出、分類、ピクセルレベルのセグメンテーションを同時に行います。

Mask R-CNNのアーキテクチャ

Mask R-CNNはFaster R-CNNの構造をベースにしています。ResNetとFPNをバックボーンとして特徴を抽出し、RPNで候補領域を生成します。各候補領域に対してROI Align(ROI Poolingの改良版)で特徴を抽出し、3つの並列ブランチで処理します。分類ブランチは物体のクラスを予測し、ボックス回帰ブランチは位置を精密化し、マスクブランチは各クラスに対するピクセルレベルのセグメンテーションマスクを生成します。マスクブランチは分類とは独立に動作するため、マスクの品質が向上しています。

Mask R-CNNの影響と応用

Mask R-CNNはインスタンスセグメンテーションの事実上の標準モデルとして広く利用されています。姿勢推定にも拡張可能であり、キーポイント検出ブランチを追加したKeypoint R-CNNも提案されています。自動運転、ロボティクス、医療画像分析、衛星画像解析など、精密な物体認識が求められる多くの分野で活用されています。