アテンション機構とは
アテンション機構(Attention Mechanism)は、ニューラルネットワークが入力データの特定の部分に選択的に注目することを可能にする仕組みです。2014年にバーダノウらが機械翻訳のタスクで初めて導入し、翻訳精度を大幅に向上させました。人間が文章を読む際に重要な単語に注意を向けるのと同様に、モデルが関連性の高い情報に焦点を当てることができます。
アテンションの計算方法
基本的なアテンション機構では、Query(問い合わせ)、Key(鍵)、Value(値)の3つのベクトルを使って計算を行います。Queryと各Keyの類似度(アテンションスコア)を計算し、ソフトマックス関数で正規化した後、その重みでValueの加重和を求めます。スケールドドットプロダクトアテンションでは、スコアをKeyの次元数の平方根で割ることで、勾配の安定性を保ちます。
アテンションの種類
アテンション機構にはいくつかの種類があります。加法的アテンション(Additive Attention)はQueryとKeyの結合にフィードフォワードネットワークを適用する方式です。ドットプロダクトアテンションはQueryとKeyの内積を用いるより効率的な方式です。また、自己注意(Self-Attention)は同一系列内の要素間の関係を計算し、クロスアテンションは異なる系列間の関係を捉えます。
アテンション機構の重要性
アテンション機構はTransformerの基盤技術として、現代のAIに不可欠な要素となっています。大規模言語モデル、画像認識、音声処理など、あらゆるディープラーニングタスクで活用されており、モデルの解釈可能性を高める効果もあります。アテンションの重みを可視化することで、モデルがどの部分に注目して判断を下したかを理解することが可能です。