Chinchillaスケーリングとは
Chinchillaスケーリングとは、2022年にDeepMindが発表した論文「Training Compute-Optimal Large Language Models」で提唱された、大規模言語モデルの最適な訓練手法に関する知見です。論文で訓練されたモデル「Chinchilla」にちなんで名付けられました。
計算最適なスケーリング比率
従来のスケーリング則ではモデルサイズの増大が重視されていましたが、Chinchilla研究は「モデルのパラメータ数と訓練データのトークン数をほぼ等しい比率で増やすことが計算効率的に最適である」ことを示しました。具体的には、パラメータ数を2倍にするなら、訓練データ量も2倍にすべきとされます。
業界への影響
この発見により、それまでの「巨大モデルを比較的少ないデータで訓練する」というアプローチが見直されました。Chinchilla(70Bパラメータ)はGopher(280Bパラメータ)を上回る性能を示し、適切なデータ量の確保がモデルサイズ以上に重要であることを実証しました。
Chinchilla以降の展開
LLaMAなどの後続モデルは、Chinchillaの知見を活かしつつ、推論時の効率を重視してさらに多くのデータで訓練するアプローチを採用しています。スケーリングの最適化は引き続き活発な研究領域です。