SSDとは
SSD(Single Shot MultiBox Detector)とは、2016年にWei Liuらによって提案された1段階物体検出モデルです。YOLOと同様に画像を一度の推論で処理しますが、特徴マップの複数のスケール(解像度)から同時に検出を行うマルチスケール検出が最大の特徴です。
SSDの仕組み
SSDはベースネットワーク(VGGNetなど)の上に、サイズが段階的に小さくなる複数の特徴マップ層を追加します。大きな特徴マップでは小さな物体を、小さな特徴マップでは大きな物体を検出します。各特徴マップの各位置にデフォルトボックス(アンカーボックス)を配置し、物体の位置オフセットとクラス確率を予測します。これにより、異なるサイズやアスペクト比の物体を効率的に検出できます。損失関数はLocalization LossとConfidence Lossの組み合わせで構成されます。
SSDの位置づけ
SSDは精度と速度のバランスに優れたモデルとして、特にリアルタイムアプリケーションで広く利用されてきました。当時のFaster R-CNNより高速でありながら、同等以上の精度を達成しました。マルチスケール特徴マップの概念は、後の物体検出モデル(特徴ピラミッドネットワークなど)にも大きな影響を与えました。現在ではYOLOの最新バージョンに性能で劣ることもありますが、SSDの設計思想は物体検出の基盤的な知見として重要です。