データの壁とは
データの壁(Data Wall)とは、大規模言語モデル(LLM)の訓練に利用可能な高品質テキストデータが枯渇しつつあるという問題を指します。スケーリング則に従ってモデルを大規模化し続けるためには、対応するデータ量の増加が必要ですが、インターネット上のテキストデータには上限があります。
データ枯渇の実態
研究者らの推計によると、インターネット上の高品質テキストデータは有限であり、現在の消費ペースでは2026年頃までに枯渇する可能性が指摘されています。Webスクレイピングで得られる低品質データを含めても、モデルの性能向上に寄与するデータには限りがあります。
データの壁への対応策
合成データの活用、データの質的向上(フィルタリング・キュレーション)、マルチモーダルデータの活用、推論時計算(Test-time Compute)の強化、データ効率の高い学習手法の開発などが対応策として研究されています。
AI開発への影響
データの壁は、「スケーリング則に基づく性能向上は永続しない」という認識を広め、AI開発のパラダイムシフトを促す可能性があります。データ量ではなくデータの質やアルゴリズムの革新が今後より重要になるという見方が広がっています。