環境:Z-Image Turbo, ComfyUI 0.4.0

中国アリババが先日リリース(2025年11月27日)した画像生成AIのZ-Image Turboを使ってみました。6B(60億)という軽量パラメータでVRAM 16GBでの動作を可能にしている点が特徴。Apache License 2.0で商用利用可というのもいいですね。
| 正式名 | Z-Image-Turbo |
| 公開日 | 2025年11月27日 |
| 開発会社 | Alibaba / Tongyi-MAI |
| ライセンス | Apache License 2.0(商用利用可) |
| モデル規模 | 60億パラメータ(6B) |
| 検閲 | なし |
ワークフロー
ComfyUIのプリインストールされているテンプレートを利用。

ワークフローの画面。

RTX 5070 Tiでは1280×960の解像度でおよそ12秒ほどで描画される。
ファイルの構成
Diffusion Model
z_image_turbo_bf16.safetensors(11.4GB)
拡散モデル本体。画像を描くモデル。数ステップで画像を完成させる。bf16(16ビットの浮動小数点数)。
Text Encoder
qwen_3_4b.safetensors(7.49GB)
テキスト理解・プロンプト解釈用LLM(言語モデル)。
VAE
ae.safetensors(319MB)
実画像↔潜在表現の変換。編集前画像の読み込みと最終出力の復元に必須。
プロンプト
次のような優先度で書くとよいらしい。
① 主題 → ② 構図 → ③ 空間・地形 → ④ 物理構造 → ⑤ 光 → ⑥ 雰囲気・質感 → ⑦ 画風
また、自然言語理解寄りなので、Stable Diffusionのように単語の羅列ではなく、フレーズでつなげるほうがよい。フレーズにすることでひとまとまりの概念として解釈されやすくなる。
リアルな描画が得意そうなので、ミニチュア風の世界観のものをいくつか生成させてみました。
集積回路
よくあるコンピュータ基盤。生成AIにちなんでnVidiaのチップを描いてみました。ちゃんとロゴが出る。

GPU chip macro view with cinematic lighting,
front-facing view,
dark moody atmosphere,
glowing yellow-green energy flowing through circuit lines,
high contrast light and shadow,
softly glowing NVIDIA logo,
volumetric lighting.キッチンのミニチュア風景
台所でこぼれたコーヒー豆を片付けるミニチュア作業員。
最後にこのプロンプトを追加することでミニチュア風になってくれます。
shallow depth of field.
ultra-detailed miniature world.

A highly detailed miniature diorama scene on a kitchen countertop,
A glass jar of coffee beans has tipped over, spilling coffee beans across the surface,
Tiny construction workers are cleaning up the beans,
Using miniature bulldozers, excavators, and dump trucks,
Realistic textures,
Warm morning light,
Cinematic composition,
Photorealistic miniature world.ピーナッツバターの波に乗るサーファーたち。

A dynamic miniature surfing scene on a slice of golden-brown toast on plate.
Thick, glossy peanut butter is spread across the toast,
sculpted into smooth, curling wave shapes like a tiny ocean frozen mid-surge.
Several miniature surfers rides the peanut butter wave, balanced and dynamic, wearing a swimsuit.
Nearby on the kitchen countertop sits an open jar of peanut butter and a butter knife with peanut butter on its blade.
shallow depth of field, realistic food textures, warm morning sunlight,
cinematic lighting, playful and surreal atmosphere.土台となる英文を作成した後、ChatGPTにZ-Image向けに自然な文章に修正してもらった。
ミニチュア都市風景
シムシティのようなミニチュア都市と交通網。

hyper-realistic miniature diorama,
tilt-shift lens effect, depth of field,
tiny scale model city,
futuristic Japanese night city with glowing neon lights and vibrant colorful reflections,
intense global illumination and ambient light bloom,
elevated railway network, concrete viaducts,
large elevated train station spanning above the roads,
trains arriving and departing on elevated platforms,
cars and traffic far below,
miniature people with toy-like proportions,
reflective streets enhancing neon reflections,
top-down aerial view, cinematic lightingジャンクションの構造はおかしいけど、雰囲気は出ている。

dynamic miniature Japanese spiral highway junction,
tilt-shift effect, toy-like scale,
concentric looping roads, a lot of cars,
elegant illumination, glowing city lights,
skyscrapers, top-down night view, shallow depth of field,感想
要求スペックに対してなかなかよいクオリティだと思います。生成時間も短い。
ゲーム業界にいるので少し前までモデリングの仕事もしていましたが、こんなクオリティのものが瞬時に生成されると静止画向けのハイポリゴンモデリングは馬鹿らしくて出来なくなってしまいますね・・・。

