Attention機構(NLP)

Attention Mechanism

Attention機構とは

Attention機構(Attention Mechanism)とは、モデルが入力の中で特に重要な部分に選択的に注目する仕組みです。2015年にBahdanauらが機械翻訳に導入し、その後Transformerアーキテクチャの中核技術として自然言語処理に革命をもたらしました。

Attentionの仕組み

Attention機構はQuery(クエリ)、Key(キー)、Value(バリュー)の3つの要素で構成されます。クエリとキーの類似度を計算してAttentionスコア(重み)を求め、その重みでバリューの加重和を取ります。これにより、入力の中で現在のタスクに関連する部分に「注目」して情報を集約できます。

Self-AttentionとCross-Attention

Self-Attention(自己注意)は同一の入力系列内での各要素間の関係を計算します。Transformerの基盤技術であり、文中の離れた位置にある単語間の依存関係も直接捉えられます。Cross-Attention(交差注意)はエンコーダーの出力とデコーダーの入力など、異なる系列間のAttentionを計算します。

Multi-Head Attention

Multi-Head Attentionは複数のAttentionヘッドを並列に計算し、異なる「観点」からの注目パターンを学習します。あるヘッドは構文的な関係に、別のヘッドは意味的な関係に注目するなど、多角的な情報統合が可能になります。