受容野

Receptive Field

受容野とは

受容野(Receptive Field)は、CNNにおいて特定のニューロンの出力に影響を与える入力画像上の領域のことです。神経科学における視覚ニューロンの受容野の概念に由来しています。深い層のニューロンほど広い受容野を持ち、より大きな空間的文脈を考慮した特徴を抽出できます。

受容野の計算

受容野のサイズは、カーネルサイズ、ストライド、層の深さによって決まります。各層を通過するごとに受容野は拡大し、複数の層を積み重ねることで小さなカーネルでも大きな受容野をカバーできます。例えば、3×3のカーネルを3層積み重ねると、7×7の受容野と同等の範囲をカバーしますが、パラメータ数は7×7カーネル1層よりも少なくなります。

理論的受容野と有効受容野

計算上の受容野(理論的受容野)と実際にニューロンの出力に大きく影響する領域(有効受容野)には差があります。有効受容野は通常、理論的受容野よりも小さく、中心付近の入力がより大きな影響を持つガウス分布的な形状をしています。この理解はモデルの設計やデバッグに重要です。

受容野の制御手法

受容野を効率的に拡大する手法として、ダイレーテッド畳み込み(Dilated Convolution、Atrous Convolution)があります。フィルタの要素間に空間的な隙間を設けることで、パラメータ数を増やすことなく受容野を拡大できます。この手法はセマンティックセグメンテーションや音声処理(WaveNet)で広く活用されています。