Attention is All You Need

Attention is All You Need

Attention is All You Needとは

「Attention is All You Need」は、2017年にGoogleの研究者であるアシュシュ・ヴァスワニらが発表した論文で、Transformerアーキテクチャを世界に紹介した、AI史上最も影響力のある論文の一つです。この論文のタイトルは、注意機構(Attention)だけで高性能なモデルを構築できるという主張を端的に表現しています。

論文の核心

従来の系列変換モデル(seq2seq)はRNNやCNNを基盤としていましたが、この論文は再帰的な構造を完全に排除し、Self-Attention機構のみに基づく新しいアーキテクチャを提案しました。Multi-Head Attentionにより、異なる表現部分空間での注意を並列に計算できることが示されました。

実験結果

機械翻訳のベンチマーク(WMT 2014 英独翻訳、英仏翻訳)で当時の最高性能を達成し、しかも学習時間は従来手法の数分の一でした。この「高性能かつ高効率」という特性が、Transformerの急速な普及を後押ししました。

計り知れない影響

この論文の被引用数は2024年時点で15万回を超え、コンピュータサイエンス史上最も引用された論文の一つです。8人の共著者のうち多くがその後独立して起業し、AI業界を牽引しています。Transformer論文は、単なる技術的な進歩ではなく、現代AIのパラダイムそのものを定義した歴史的な文献です。