QLoRAとは？わかりやすく解説

QLoRAとは

QLoRA（Quantized Low-Rank Adaptation）とは、LoRAの手法に量子化（Quantization）を組み合わせることで、さらにメモリ効率を高めたファインチューニング手法です。2023年にワシントン大学の研究者によって発表され、一般的な消費者向けGPU（48GB VRAM）でも65Bパラメータのモデルをファインチューニングできることを示しました。

QLoRAの技術的特徴

QLoRAは3つの技術革新により高いメモリ効率を実現しています。第一に、4ビットNormalFloat（NF4）量子化により、モデルの重みを4ビットに圧縮して保持します。第二に、二重量子化（Double Quantization）により量子化パラメータ自体もさらに量子化します。第三に、ページドオプティマイザにより、メモリ不足時にGPUメモリからCPUメモリへの自動転送を行います。

QLoRAの実用的意義

QLoRAの最大の貢献は、大規模モデルのファインチューニングを民主化したことです。従来は数百GBのGPUメモリを持つ高価なハードウェアが必要でしたが、QLoRAにより比較的手頃なGPUでも大規模モデルのカスタマイズが可能になりました。Guanaco等の高性能モデルがQLoRAで学習されており、フルファインチューニングに匹敵する性能を達成しています。bitsandbytesライブラリとHugging Face Transformersの統合により、実装も容易です。

QLoRAとは

QLoRAの技術的特徴

QLoRAの実用的意義

関連用語