画像生成AI「Stable Diffusion」とは？導入方法と使い方を解説！

はじめに
画像生成AIとは？
Stable Diffusionとは？
Stable Diffusionの導入方法
Stable Diffusionの導入の具体的手順
画像の生成方法
その他の設定
1. 使用するモデルについて
2. 生成する画像サイズについて
まとめ

はじめに

最近、巷で話題の画像生成AI。

画像生成AIを使用すれば絵を描けない人でも高品質なイラストを作成できるらしいけれども、実際に何なのかわからない、どう使用するのかもわからない、という人も多いのではないかと思います。

この記事では画像生成AIとはどのようなものなのか、そして画像生成AIの中でも無料で使用可能な「Stable Diffusion」について、どのように導入するのかを解説します。

画像生成AIとは？

画像生成AIとは、生成したい画像をテキストを入力すると、AI（人工知能）がそのテキストに沿った画像を自動で生成するシステムのことです。

画像生成AIにはいくつか種類があり、日本で有名なのは次のようなものがあります。

Stable Diffusion
NovelAI
midjourney

今回はその中でも誰でも無料で使用可能な「Stable Diffusion」について、解説します。

Stable Diffusionとは？

「Stable Diffusion」は2022年8月頃にリリースされたオープンソースな画像生成AIです。

Stable Diffusionは入力したテキストをもとに画像を生成するAI（text-to-image）で、ユーザーは生成したいイラストのイメージを入力することで様々な画像を生成することができます。

前述したNovelAIやmidjourneyとは異なり、プログラムが公開されているため自分のパソコンにインストールして使用することが可能です。

かなり多機能で、絵柄を切り替えてイラストを生成したり、高品質な画像を大量に生成することができます。

Stable Diffusionの導入方法

Stable Diffusionの導入には主に次の3つの方法があります。

自分のPC（ローカル環境）にインストールして使用する方法
外部環境（クラウド）にインストールして使用する方法
外部のWebサービスを使用する方法

それぞれの特徴について解説します。

自分のPC（ローカル環境）にインストールして使用する方法

Stable Diffusionはオープンソースですので、自分のパソコンにインストールして使用することができます。特徴は次の通りです。

自分のパソコン上で動作するので制限がない。
- 他の方法だと生成できる枚数に上限があったり、使用できるオプションなどに制限があります。
無料で使用できる。
- 自分のパソコンにインストールしない方法だと、使用量に応じた料金（クラウドの使用料金や有料サービスの月額料金）が発生する場合があります。
それなりに高性能なパソコンが必要。
- 低スペックなパソコンだと画像を出力するのが遅かったり、そもそも出力できない可能性があります。
- それなりに高性能なパソコンをお持ちでない場合は新たに用意する必要があります。

本格的にやりたいのであれば、制限のないローカルにインストールする方法がおすすめです。

外部環境（クラウド）にインストールして使用する方法

それなりに高性能なパソコンをお持ちでない場合は外部環境（クラウド）を借りて、そこにインストールする方法です。特徴は次の通りです。

外部環境にインストールするので、それなりに高性能なパソコンを用意する必要がない。
- 高性能なパソコンはなんだかんだ10万以上します。
無料版で使用できる範囲に制限がある。
- 使用時間や、メモリ容量・GPUの使用量に制限があるケースがほとんどです。
- 無料枠を超えて使用しようとすると月額料金が発生します。

高性能なPCを持っていない方にとっては有力な選択肢です。

外部のWebサービスを使用する方法

Stable Diffusionを使用した外部のWebサービスを利用する方法です。特徴は次の通りです。

すでに出来上がった環境を利用するのでStable Diffusionをインストールする必要がない。
- インストールに必要な作業をスキップしてお手軽に画像を生成することができます。
カスタマイズはほぼできない。
- 使用できるモデル（絵柄）が選択できず、大量生成することもできません。
無料版で使用できる範囲に制限がある。
- 生成できる画像の枚数や画像の大きさなどに制限があるケースがほとんどです。
- 無料枠を超えて使用しようとすると月額料金が発生します。

制限がきつく、お試しで使用する感じになります。

Stable Diffusionの導入の具体的手順

Stable Diffusionの導入方法を3つ紹介しました。それぞれについて、具体的な導入手順を解説します。

自分のPC（ローカル環境）にインストールして使用する方法

ローカルで動作させるにもいくつか方法があるのですが、おすすめはブラウザ上で動作する「Stable Diffusion web UI」というクライアントです。

「Stable Diffusion web UI」の導入方法は次の記事で解説しています。

外部環境（クラウド）にインストールして使用する方法

外部環境（クラウド）を利用する場合、Google Colaboratory（通称Colab）になります。

ColabはGoogleが提供しているPythonを実行できるクラウド環境で、Colab上にStable Diffusionをインストールして使用します。

Colabに「Stable Diffusion」をインストールする方法は別記事で紹介する予定ですので少々お待ちください。

外部のWebサービスを使用する方法

Stable Diffusionをお試しで使用してみたい方は、次のサービスがおすすめです。

プロンプトの入力フォームがありますので、後述するプロンプトとネガティブプロンプトを入力して実行すれば画像が出力されます。（使い方は各サービスで異なります。）

Stable Diffusion 2-1 - a Hugging Face Space by stabilityai

User provides a prompt and negative prompt description; the application generates images based on the text. Users can also adjust the guidance scale to influenc...

DreamStudio

https://www.mage.space/

画像の生成方法

ここからはStable Diffusionの実行環境が整った前提で解説します。

Stable Diffusionはプロンプトと呼ばれるキーワードや文章を英語で入力して実行することで画像を生成します。プロンプトには通常のプロンプトとネガティブプロンプトの2種類が存在します。

通常プロンプト

通常プロンプトには生成したい画像の要素をキーワードや文章を英語で指定します。

例えば、美少女の画像を生成したいのであれば「cute girl」などのキーワードを生成します。さらに複数の要素を指定してい場合はカンマ区切りで指定します。

例えば、先程の美少女に黒髪の要素を追加したければ次の通り指定します。

cute girl, black hair

使用するモデルにもよりますが、これだけだと高品質な画像が生成できないパターンもありますので、実際には下記のキーワードを含めることが多いです。

best quality, masterpiece, ultra detailed
（最高品質、傑作、詳細に描く）

ネガティブプロンプト

ネガティブプロンプトとは通常のプロンプトを異なり、生成したくない要素をキーワードで指定します。生成したくない要素が複数ある場合は通常プロンプトと同様、カンマ区切りで指定します。

使用するモデルにもよりますが、何も指定しないと低品質な画像が生成されやすいです。それを回避するために下記のキーワードをネガティブプロンプトに使用するケースが多いです。

worst quality, low quality
（最悪の品質、低品質）

強調構文

画像を生成しているとプロンプトで指定していてもキーワードが多すぎることが原因などで、指定した要素が出力されない場合があります。そんなときに特定の要素を強調してプロンプトで指定することで回避することができます。強調する場合は下記の構文で指定します。

(キーワード:重要度)

例えば、白髪でポニーテールの美少女を出力した場合、「cute girl, white hair, ponytail」などと指定しますが、ポニーテールで生成されるケースが少ない場合が下記のように指定します。

cute girl, white hair, (ponytail:1.2)

重要度のデフォルトは「1」です。1より大きいと強調し、1より小さいとそのキーワードを弱めることができます。使用するモデルにもよりますが、0.5～1.5の範囲で指定することが多いようです。

また、複数の要素をカンマ区切りで一度に指定することもできます。

cute girl, (white hair, ponytail:1.2)

この構文は通常プロンプトだけではなく、ネガティブプロンプトにも使用することができます。

(worst quality, low quality:1.2)

その他の設定

ここまでプロンプトから画像を生成する方法を解説しました。その他にもいくつか気をつけたほうが良い項目がありますので、解説します。

使用するモデルについて

Stable Diffusionでは使用するモデルを切り替えて、異なる絵柄を使い分けることができます。2次元の絵柄が得意なモデルもいれば、3次元のリアルな描写が得意なモデルもいますし、背景に特化したモデルもあります。自分の生成したい画像が得意なモデルを選択しましょう。

生成する画像サイズについて

生成する画像のサイズは512～768程度がおすすめです。この画像サイズはフルHDでも小さいのですが、これ以上大きくすると画像を生成するのに時間がかかりますし、構図が破綻する可能性が増えてきます。

Stable Diffusionにはアップスケーリングという機能があり、小さい画像から大きい画像にアップスケールすることができます。大きい画像を生成するなら、最初は小さい画像を生成し、あとからアップスケーリングを行い、高解像度にするのをおすすめです。

オススメのサイズは次のとおりです。

縦長の場合
- 縦：768, 横：512（縦横比3:2）
- 縦：768, 横：576（縦横比4:3）
横長の場合
- 縦：512, 横：768（縦横比2:3）
- 縦：576, 横：768（縦横比3:4）
正方形の場合
- 縦：512, 横：512（縦横比1:1）

まとめ

画像生成AIの説明から実際にStable Diffusionを利用して画像を生成する方法を解説しました。画像生成AIは人間では時間のかかる作業を短時間でこなしたり、絵を描けない人でも高品質な画像を作成することができます。

今後、画像生成AIは様々なところで使用され普及していくと思われますので、この機会にStable Diffusionを導入して、いろいろな画像を生成してみて使い方になれていただければと思います。