Stable Diffusionとは
Stable Diffusion(ステーブル・ディフュージョン)とは、Stability AI社が2022年にオープンソースで公開した画像生成AIモデルです。テキストの説明(プロンプト)から高品質な画像を生成でき、Latent Diffusion(潜在拡散)アーキテクチャを採用することで、一般的なGPUでも動作する効率性を実現しました。
Stable Diffusionの技術的特徴
Stable Diffusionの革新は、拡散過程をピクセル空間ではなく、VAE(Variational Autoencoder)で圧縮された潜在空間(Latent Space)で行う点にあります。これにより計算コストが大幅に削減され、消費者向けGPU(8GB VRAM〜)でも画像生成が可能になりました。テキストの条件付けにはCLIPテキストエンコーダーが使用され、テキストの意味を画像生成プロセスに反映させます。
エコシステムと影響
Stable Diffusionのオープンソース公開は、AI画像生成の民主化に大きく貢献しました。ComfyUI、AUTOMATIC1111などのユーザーフレンドリーなインターフェースや、ControlNet、LoRAなどの拡張技術が登場し、活発なコミュニティエコシステムが形成されています。SDXL、Stable Diffusion 3と進化を続け、画質と制御性が向上しています。商用利用が許可されたライセンスにより、多くの企業やクリエイターが活用しています。