アンカーボックスとは
アンカーボックス(Anchor Box)とは、物体検出モデルにおいて、画像上の各位置に事前に配置される参照用の矩形領域です。モデルはゼロから物体の位置を予測するのではなく、これらのアンカーボックスからのオフセット(ずれ)を予測することで、物体のバウンディングボックスを効率的に推定します。プライアボックス、デフォルトボックスとも呼ばれます。
アンカーボックスの設計
アンカーボックスは複数のスケール(大きさ)とアスペクト比(縦横比)を持つように設計されます。例えば、Faster R-CNNでは3つのスケール(128, 256, 512ピクセル)と3つのアスペクト比(1:1, 1:2, 2:1)の組み合わせで9種類のアンカーボックスを各位置に配置します。学習データの物体サイズの分布を分析してアンカーボックスのサイズを決定するk-meansクラスタリングなどの手法も使われています。
アンカーフリーへの流れ
アンカーボックスは有効な手法ですが、サイズやアスペクト比の設計にドメイン知識が必要で、大量のアンカーが計算コストを増加させるという課題があります。そのため、近年ではアンカーフリーの検出手法(CenterNet、FCOS、YOLOの最新版など)が登場しています。これらは物体の中心点やキーポイントを直接予測する方式で、設計の簡素化と性能向上を実現しています。