蒸留（Knowledge Distillation）とは？わかりやすく解説 | AI用語集

知識蒸留（Knowledge Distillation）とは、大きく複雑なモデル（教師モデル）の知識を、小さく軽量なモデル（生徒モデル）に転移させるモデル圧縮手法です。2015年にHintonらによって提案されました。

蒸留の仕組み

教師モデルのソフトマックス出力（ソフトラベル）を生徒モデルの学習目標として使用します。ハードラベル（正解0/1）よりもソフトラベル（確率分布）の方がクラス間の類似性などの「暗黒知識（Dark Knowledge）」を含んでおり、より豊富な情報を伝達できます。

温度パラメータ

ソフトマックスの温度Tを高くすることで出力分布を「柔らかく」し、クラス間の関係性をより明確に伝えます。温度T=1が通常のソフトマックス、T>1で分布がより均一になります。

活用場面

モバイルデバイスへのモデルデプロイ、推論速度の高速化、大規模モデル（LLM）の小型化などで広く利用されています。GPT-4からGPT-4-miniへの蒸留なども実例として知られています。

← 機械学習の基礎一覧に戻る AI用語集 TOPへ →