BERT（アーキテクチャ）とは？わかりやすく解説

BERTとは

BERT（Bidirectional Encoder Representations from Transformers）は、2018年にGoogleが発表したTransformerのエンコーダーをベースとした言語モデルアーキテクチャです。双方向（Bidirectional）の文脈理解を特徴とし、自然言語処理の多くのタスクで当時の最高性能を更新しました。BERTの登場は、NLP分野における事前学習・ファインチューニングのパラダイムを確立した歴史的な転換点です。

BERTのアーキテクチャ

BERTはTransformerのエンコーダー部分のみを使用し、入力テキストの双方向の文脈を同時に考慮した表現を生成します。BERT-Baseは12層、768次元、12ヘッドの構成で1.1億パラメータ、BERT-Largeは24層、1024次元、16ヘッドで3.4億パラメータです。入力はトークン埋め込み、セグメント埋め込み、位置埋め込みの合計として表現されます。

事前学習タスク

BERTは2つの自己教師あり学習タスクで事前学習されます。マスク言語モデル（MLM）では入力トークンの15%をマスクし、周囲の文脈から元のトークンを予測します。次文予測（NSP）では2つの文が連続しているかどうかを判定します。MLMにより双方向の文脈理解が可能になり、従来の左から右への言語モデルでは得られない深い言語理解を実現しています。

BERTの影響と派生モデル

BERTの成功を受けて、RoBERTa（訓練手法の最適化）、ALBERT（パラメータ効率の改善）、DeBERTa（相対位置エンコーディング）、日本語BERT、多言語mBERTなど、数多くの派生モデルが生まれました。BERTのエンコーダーベースのアプローチは、テキスト分類、固有表現認識、質問応答などの理解系タスクで現在も広く利用されています。

BERTとは

BERTのアーキテクチャ

事前学習タスク

BERTの影響と派生モデル

関連用語