Stable Diffusionとは？わかりやすく解説

Stable Diffusionとは

Stable Diffusion（ステーブル・ディフュージョン）は、Stability AIが中心となって開発したオープンソースの画像生成AIモデルです。テキストプロンプトから高品質な画像を生成する「テキスト・トゥ・イメージ（text-to-image）」モデルの代表格であり、2022年8月の公開以来、画像生成AI分野に革命をもたらしました。

オープンソースの革新

Stable Diffusionの最大の特徴は、モデルの重みとコードがオープンソースとして公開されている点です。これにより、個人のPCでも画像生成AIを動作させることが可能になり、商用利用も含めた幅広い活用が可能です。コミュニティによる活発な拡張開発が行われ、LoRA、ControlNet、img2imgなど多数の技術が生まれました。

拡散モデルの仕組み

Stable Diffusionは、潜在拡散モデル（Latent Diffusion Model）に基づいています。ノイズの除去プロセスを繰り返すことで画像を生成する手法で、計算効率が高く、一般的なGPUでも動作可能です。テキストエンコーダ（CLIP）によりプロンプトを理解し、U-Netによるノイズ除去で高品質な画像を生成します。

バージョンの進化

Stable Diffusion 1.5、2.0、SDXL、SD3と進化を続け、画質、解像度、プロンプトの理解力が大幅に向上しています。WebUI（AUTOMATIC1111、ComfyUI）の発展により、技術的な知識がなくても直感的に画像生成を楽しめる環境が整っています。