INT4量子化とは？わかりやすく解説

INT4量子化とは、ニューラルネットワークのパラメータ（重み）を4ビットの整数値で表現する極めて低精度の量子化手法です。FP16（16ビット）と比較してモデルサイズを4分の1に圧縮でき、メモリ使用量と推論速度を大幅に改善します。大規模言語モデル（LLM）の効率的なデプロイで特に注目されています。

INT4量子化の仕組み

INT4量子化では、FP16やFP32で表現されたモデルの重みを、4ビット整数（-8〜7の16段階）にマッピングします。量子化のグループサイズ（例：128パラメータごと）を設定し、グループごとにスケールファクターとゼロポイントを持つことで、精度の低下を最小限に抑えます。

代表的なINT4量子化手法

GPTQ、AWQ（Activation-aware Weight Quantization）、GGUF/GGML、QLoRAなどが代表的なINT4量子化手法です。GPTQは学習データの一部を使って量子化誤差を最小化する最適化ベースの手法で、AWQは活性化値の分布を考慮した効率的な量子化を行います。

活用と効果

70億パラメータのLLMをINT4量子化すると、約4GB程度のVRAMで推論可能になり、消費者向けGPUやラップトップでの実行が現実的になります。llama.cppやvLLMなどの推論フレームワークがINT4量子化をサポートしており、オンデバイスLLMの実現に大きく貢献しています。ただし、極端な量子化は出力品質の低下を招く場合があり、タスクに応じた精度検証が重要です。

INT4量子化の仕組み

代表的なINT4量子化手法

活用と効果

関連用語