Stable Diffusionを始めてみる

いよいよ画像生成AIを始めてみました。遅くなったことに心理的な抵抗があったことは否めない。昔アメリカの美大でコンセプトアーティストに憧れて油彩やイラストレーションの勉強をしていた身としては、面白そうと思いつつも触れてはいけない分野という気がして心理的に距離を置いていました。イラストレーターの知り合いにも反AIの人は少なくないから、今でもおおっぴらにAIやってますとは言いにくかったりします。

きっかけ
1. ジブリ風の画像変換
2. Pinterest
Stable Diffusion

きっかけ

ジブリ風の画像変換

今年（2025年）の4月にChatGPTで流行った写真のジブリ風イラスト変換に度肝を抜かれました。これはもう簡単なイラストの仕事はなくなると思いました。フォトショップのフィルタのような感覚ですぐ試せるお手軽さもよかったですね。同時に、画像認識のレベルもここまで来たのかと驚きました。

Pinterestは昔から使い続けていて、好みのイラストを見つけてはブックマークしているんですが、ある時期から作者不明の違和感のある絵が紛れ込んでくるようになってきました。筆のタッチやライティングがやたらと上手いのに、構図がどこか変、というものが多い。普通は絵を学んでいくとバランスよく上手くなっていくものなんですが、このような部分的に違和感のある絵がどんどん増えていき、いよいよ人が描くには難しすぎる精緻なものがでてきて、ようやく生成AI画像なんだと気が付きました。むしろここまで描けるまでに進化したのなら自分も触ってみたい、と思うようになりました。

Stable Diffusion

ローカル画像生成AIを始めるにあたって一番有名であろうStableDiffusionから始めてみました。

好みのモデルを探す

Stable Diffusionですが、自分にあったモデルを探すことがとても大事ですね。派生モデルが多すぎて最初はかなり混乱しました。なるべく自分の画風に近いリアル寄りのイラストタッチで調べていたら「Illustrious」というモデルがしっくりきました。

できること、できないこと

プロンプトで絵を描画させた時は衝撃を受けました。思いついたものを打ち込めば大抵の物が描画される。大きさや色も変更できる。無理なポーズもしてくれる。どんな魔法なんだ、と思いました。

とはいえ狙い通りに描かせるのは難しい。適当に何枚も描かせてアイデアを探るのは簡単ですが、頭に思い浮かんだ絵を忠実にプロンプトで再現させるのはかなり苦戦します。というか無理に近い。ガチャガチャを延々と回すことになる。

できないことがあることもわかる。奥行きが苦手で、イラストでは当たり前の構図、例えば手前と奥でキャラクターが向き合っている、といった構図が描けない。キャラクターを並べると要素が混ざり合う。格闘シーンなどの暴力表現が描けない、等々・・。万能そうに思えたのにこんな簡単そうなことはできないのか・・と。

あまりに不思議だったので、拡散モデルの仕組みと概念を調べました。拡散モデルは3DCGのような空間を認識しているわけではない。CGのレンダリングはピクセルからレイを飛ばして該当するメッシュを幾何学的に辿るけど、拡散モデルの場合は学習した画像の分布に基づいて、確率的にピクセルを確定させ画像を生成している。

しかしこの発想には驚きました。最初にこれが上手くいくと思って始めた人はすごいですね。

やってみたいこと

美大を卒業する頃にはコンセプトアーティストは向いてないと思って諦めましたが、もしコンセプトアーティストになっていたら描いていたであろう絵をAIに描かせてみるのは面白そうだと思いました。また自分が絶対に描かない（描けない）であろうスタイルの絵や、実際に描いたら労力のコストに見合わないくだらない絵なんかを描かせてもみたい。笑

これからどの業界や分野でも生成AIを使うことが当たり前になっていくと思います。どのように進化していくのか、行く末が楽しみですね。