BERTモデルとは？わかりやすく解説

BERTとは

BERT（Bidirectional Encoder Representations from Transformers）とは、2018年にGoogleが発表した事前学習済み言語モデルです。Transformerのエンコーダーを使い、テキストの双方向の文脈を同時に学習することで、自然言語処理の多くのタスクで画期的な性能を達成しました。

BERTの革新性

BERTの最大の特徴は双方向性です。それまでのモデル（GPTなど）が左から右への一方向、またはELMoのように左右を独立に学習していたのに対し、BERTはマスク言語モデリング（MLM）により、左右の両方向の文脈を同時に考慮した単語表現を学習します。これにより、文脈に応じた高品質な単語埋め込みが可能になりました。

事前学習とファインチューニング

BERTは大量のテキスト（Wikipedia、BookCorpusなど）でマスク言語モデリング（MLM）と次文予測（NSP）の2つのタスクで事前学習されます。その後、少量のラベル付きデータで各タスク（質問応答、感情分析、NERなど）にファインチューニングすることで、高い性能を発揮します。

BERTの派生モデル

BERTの成功を受けて、RoBERTa、ALBERT、DistilBERT、XLNet、DeBERTaなどの多くの派生モデルが開発されました。日本語では東北大学のBERT日本語モデルなどが公開されており、日本語NLPタスクで広く利用されています。

BERTとは

BERTの革新性

事前学習とファインチューニング

BERTの派生モデル

関連用語