Stable Diffusionとは？わかりやすく解説

Stable Diffusionとは

Stable Diffusion（ステーブル・ディフュージョン）とは、Stability AI社が2022年にオープンソースで公開した画像生成AIモデルです。テキストの説明（プロンプト）から高品質な画像を生成でき、Latent Diffusion（潜在拡散）アーキテクチャを採用することで、一般的なGPUでも動作する効率性を実現しました。

Stable Diffusionの技術的特徴

Stable Diffusionの革新は、拡散過程をピクセル空間ではなく、VAE（Variational Autoencoder）で圧縮された潜在空間（Latent Space）で行う点にあります。これにより計算コストが大幅に削減され、消費者向けGPU（8GB VRAM〜）でも画像生成が可能になりました。テキストの条件付けにはCLIPテキストエンコーダーが使用され、テキストの意味を画像生成プロセスに反映させます。

エコシステムと影響

Stable Diffusionのオープンソース公開は、AI画像生成の民主化に大きく貢献しました。ComfyUI、AUTOMATIC1111などのユーザーフレンドリーなインターフェースや、ControlNet、LoRAなどの拡張技術が登場し、活発なコミュニティエコシステムが形成されています。SDXL、Stable Diffusion 3と進化を続け、画質と制御性が向上しています。商用利用が許可されたライセンスにより、多くの企業やクリエイターが活用しています。