アンカーボックスとは？わかりやすく解説

アンカーボックスとは

アンカーボックス（Anchor Box）とは、物体検出モデルにおいて、画像上の各位置に事前に配置される参照用の矩形領域です。モデルはゼロから物体の位置を予測するのではなく、これらのアンカーボックスからのオフセット（ずれ）を予測することで、物体のバウンディングボックスを効率的に推定します。プライアボックス、デフォルトボックスとも呼ばれます。

アンカーボックスの設計

アンカーボックスは複数のスケール（大きさ）とアスペクト比（縦横比）を持つように設計されます。例えば、Faster R-CNNでは3つのスケール（128, 256, 512ピクセル）と3つのアスペクト比（1:1, 1:2, 2:1）の組み合わせで9種類のアンカーボックスを各位置に配置します。学習データの物体サイズの分布を分析してアンカーボックスのサイズを決定するk-meansクラスタリングなどの手法も使われています。

アンカーフリーへの流れ

アンカーボックスは有効な手法ですが、サイズやアスペクト比の設計にドメイン知識が必要で、大量のアンカーが計算コストを増加させるという課題があります。そのため、近年ではアンカーフリーの検出手法（CenterNet、FCOS、YOLOの最新版など）が登場しています。これらは物体の中心点やキーポイントを直接予測する方式で、設計の簡素化と性能向上を実現しています。