KDL BLOG

【やってみた】Stable Diffusionで画像生成!

こんにちは。神戸デジタル・ラボの原口です。今回は彗星の如く登場した文章から画像を生成するAIモデル「Stable Diffusion」を試します。

Stable Diffusionとは

Stable Diffusionはドイツのルートヴィヒ・マクシミリアン大学ミュンヘンのコンピュータビジョン研究グループが開発した、テキストから画像を生成するAIです。 近年、テキストから画像を生成するAIモデルは急激な成長を遂げてきています。少し振り返ってみましょう。

Stable Diffusionとテキストから画像を生成するAIの歴史

最初に大きなインパクトを与えたのは2021年1月にOpenAIから発表されたDALL・Eです。DALL・Eが発表された当時は、ここまで高精度にテキストから画像を生成できるAIがなかったため、とてもすごいAIが開発されたなと驚いたことを覚えています。ただ発表時点では決められた文字列に対する結果のみが示されており、自由に操作することは出来ませんでした。 次に現れたのが2022年5月にGoogleから発表されたImagenです。ImagenはDALL・Eと比較してさらに優れた画像生成ができるようになりました。ただこちらも「有害な表現を生み出す可能性があるため、一般利用のための公開はしない」という判断が下され、簡単には利用できないのが現状です。 そんな中現れたのが2022年7月にオープンベータとなったMidjourneyです。テキストから画像を生成する能力は申し分ありません。さらにMidjourneyはチャットツールの一種であるDiscordの招待を受け取り、Midjourney専用のチャットルームで任意の文字列を投稿すると、今まで出来なかった任意の画像を生成できるようになりました!ただ生成できる画像枚数に制限があったり、商用利用できないという問題がありました。(有料会員になれば無制限・商用利用も可能です。) そしてこれらの問題をすべて解決したのが、彗星の如く登場したStable Diffusionです。なんとこのモデルは、コードレベルで任意の文字列を入力して画像を生成することができ、さらには商用利用も可能です! ただ一つ重要な規約があります。それは「Stable Diffusionモデルを利用して違法または有害なコンテンツを意図的に生成すること」は禁止されています。例えばStable Diffusionを用いて有名人そっくりな顔を生成し、なりすましを行う・デマを流すなどが考えられます。 生成された画像が面白いからと言って、むやみにSNSに上げるのは控えた方が良いでしょう。 (つづきは、ブログ「神戸のデータ活用塾!KDL Data Blog」へ) hatena.png