バックボーンネットワーク

Backbone Network

バックボーンネットワークとは

バックボーンネットワーク(Backbone Network)は、ディープラーニングモデルの特徴抽出を担う基幹部分のネットワークです。「バックボーン(背骨)」の名の通り、モデル全体の基盤として機能し、入力データから階層的な特徴表現を生成します。物体検出やセグメンテーションなどのタスクでは、バックボーンの上にタスク固有の「ヘッド」を接続してモデルを構築します。

代表的なバックボーン

コンピュータビジョンの分野では、ResNet、VGGNet、EfficientNet、Vision Transformerなどが代表的なバックボーンとして使用されます。これらは通常ImageNetなどの大規模データセットで事前学習されており、汎用的な特徴抽出能力を持っています。バックボーンの選択はモデル全体の性能に大きく影響します。

バックボーンの選択基準

バックボーンの選択には、精度、速度、メモリ効率、モデルサイズなどのトレードオフを考慮する必要があります。ResNet-50は精度と速度のバランスが良く広く使用されています。MobileNetやEfficientNet-Liteはモバイル環境向けに最適化されています。近年ではSwin TransformerやConvNeXtなどの新しいバックボーンも注目されています。

Feature Pyramid Networkとの連携

物体検出では、バックボーンの複数の層から異なる解像度の特徴マップを取り出し、FPN(Feature Pyramid Network)で統合する設計が一般的です。これにより、大きな物体から小さな物体まで効果的に検出できます。バックボーンネットワークは単独で使用されることは少なく、下流タスクのアーキテクチャと組み合わせて使用されます。