INT4量子化とは、ニューラルネットワークのパラメータ(重み)を4ビットの整数値で表現する極めて低精度の量子化手法です。FP16(16ビット)と比較してモデルサイズを4分の1に圧縮でき、メモリ使用量と推論速度を大幅に改善します。大規模言語モデル(LLM)の効率的なデプロイで特に注目されています。
INT4量子化の仕組み
INT4量子化では、FP16やFP32で表現されたモデルの重みを、4ビット整数(-8〜7の16段階)にマッピングします。量子化のグループサイズ(例:128パラメータごと)を設定し、グループごとにスケールファクターとゼロポイントを持つことで、精度の低下を最小限に抑えます。
代表的なINT4量子化手法
GPTQ、AWQ(Activation-aware Weight Quantization)、GGUF/GGML、QLoRAなどが代表的なINT4量子化手法です。GPTQは学習データの一部を使って量子化誤差を最小化する最適化ベースの手法で、AWQは活性化値の分布を考慮した効率的な量子化を行います。
活用と効果
70億パラメータのLLMをINT4量子化すると、約4GB程度のVRAMで推論可能になり、消費者向けGPUやラップトップでの実行が現実的になります。llama.cppやvLLMなどの推論フレームワークがINT4量子化をサポートしており、オンデバイスLLMの実現に大きく貢献しています。ただし、極端な量子化は出力品質の低下を招く場合があり、タスクに応じた精度検証が重要です。