BERTモデル

Bidirectional Encoder Representations from Transformers

BERTとは

BERT(Bidirectional Encoder Representations from Transformers)とは、2018年にGoogleが発表した事前学習済み言語モデルです。Transformerのエンコーダーを使い、テキストの双方向の文脈を同時に学習することで、自然言語処理の多くのタスクで画期的な性能を達成しました。

BERTの革新性

BERTの最大の特徴は双方向性です。それまでのモデル(GPTなど)が左から右への一方向、またはELMoのように左右を独立に学習していたのに対し、BERTはマスク言語モデリング(MLM)により、左右の両方向の文脈を同時に考慮した単語表現を学習します。これにより、文脈に応じた高品質な単語埋め込みが可能になりました。

事前学習とファインチューニング

BERTは大量のテキスト(Wikipedia、BookCorpusなど)でマスク言語モデリング(MLM)と次文予測(NSP)の2つのタスクで事前学習されます。その後、少量のラベル付きデータで各タスク(質問応答、感情分析、NERなど)にファインチューニングすることで、高い性能を発揮します。

BERTの派生モデル

BERTの成功を受けて、RoBERTa、ALBERT、DistilBERT、XLNet、DeBERTaなどの多くの派生モデルが開発されました。日本語では東北大学のBERT日本語モデルなどが公開されており、日本語NLPタスクで広く利用されています。