インスタンスセグメンテーションとは？わかりやすく解説

インスタンスセグメンテーションとは

インスタンスセグメンテーション（Instance Segmentation）とは、画像中の各物体をピクセルレベルで検出し、同じカテゴリに属する物体であっても個別に区別する技術です。セマンティックセグメンテーションが「どのクラスか」だけを分類するのに対し、インスタンスセグメンテーションは「どの個体か」まで区別できる点が大きな特徴です。

代表的な手法

インスタンスセグメンテーションの代表的なモデルはMask R-CNNです。Mask R-CNNはFaster R-CNNの物体検出フレームワークにマスク予測ブランチを追加したもので、各検出された物体に対してピクセルレベルのマスクを生成します。他にも、YOLACT、SOLOv2、PointRendなどの手法があり、それぞれ速度と精度のバランスが異なります。近年ではTransformerベースのモデルも登場しています。

活用シーンと重要性

インスタンスセグメンテーションは、ロボットが個別の物体を把持する際の認識、自動運転での個々の車両や歩行者の追跡、医療画像での個別の細胞や腫瘍の検出、写真編集での背景と被写体の正確な分離など、個体を正確に区別する必要がある場面で不可欠です。物体の正確な輪郭を取得できるため、後続の処理に高品質な情報を提供できます。