RetinaNetとは？わかりやすく解説

RetinaNetとは

RetinaNet（レティナネット）とは、2017年にFacebookAI Research（現Meta AI）のTsung-Yi Linらによって提案された1段階物体検出モデルです。Focal Lossという新しい損失関数を導入することで、1段階検出モデルが2段階検出モデルの精度に匹敵する性能を初めて実現しました。

Focal Lossの革新性

1段階検出モデルの精度が2段階モデルに劣っていた主な原因は、クラスの不均衡問題でした。画像中の大部分は背景であり、検出すべき物体は少数です。通常のCross Entropy損失では、大量の「簡単な背景サンプル」が損失を支配し、物体の検出学習を妨げます。Focal Lossは、簡単なサンプルの損失を自動的に抑制し、分類が難しいサンプルに学習を集中させます。これにより、クラス不均衡の問題を効果的に解決しました。

アーキテクチャと影響

RetinaNetはResNetをバックボーンとし、Feature Pyramid Network（FPN）を用いたマルチスケール特徴抽出を行います。FPNから得られる各スケールの特徴マップに対して、分類サブネットワークとボックス回帰サブネットワークを適用します。Focal Lossの概念は物体検出だけでなく、クラス不均衡が課題となる様々な機械学習タスクにも応用されており、その影響は非常に大きいです。