Qwen-Imageを使ってみる

環境:Qwen-Image, ComfyUI 0.8.0

中国アリババが2025年8月に公開した画像生成AIのQwen-Imageを使ってみました。

正式名Qwen-Image
公開日2025年8月4日
開発会社Alibaba / Qwenチーム
ライセンスApache License 2.0(商用利用可)
モデル規模200億パラメータ(20B)
検閲

ワークフロー

ComfyUIのプリインストールされているテンプレートを利用。

ファイルの構成

Diffusion Model
qwen_image_fp8_e4m3fn.safetensors(19.0GB)
拡散モデル本体。画像を描くモデル。

LoRA
Qwen-Image-Lightning-8steps-V1.0.safetensors(1.58GB)
モデルを高速化するための LoRA(軽量追加重み)ファイル。

Text Encoder
qwen_2.5_vl_7b_fp8_scaled.safetensors(8.73GB)
テキスト理解・プロンプト解釈用LLM(言語モデル)。

VAE
qwen_image_vae.safetensors(242MB)
実画像↔潜在表現の変換。編集前画像の読み込みと最終出力の復元に必須。

作例

Qwen-Imageの実力が知りたくてとりあえず出力してみた画像。

ローラーコースターに乗るネコ

1280 x 960 Step:20 cfg:2.5 RTX PRO 5000でのロードなしでの描画時間は28秒
cats riding roller coaster, realistic, blue sky, high speed, close up,

リアル指定したわりにはちょっとCGっぽい気がする。

ロボット猫

1280 x 960 Step:20 cfg:2.5 RTX PRO 5000でのロードなしでの描画時間は28秒

Doraemonって入れたら出てきてびっくり。学習されてるんですね。

A realistic miniature crying Doraemon buried halfway in the ground,
only the head exposed above the soil.
Loose soil covering parts of its head,
small stones scattered around,
a shovel partially visible nearby.
Cinematic lighting, shallow depth of field,
highly detailed soil texture,
realistic miniature diorama style,
dramatic yet quiet atmosphere, ultra-detailed,
photorealistic, high quality. midnight dark blue lighting.

感想

Z-Image Turboと比べると、やはり重い。Lightining LoRAを使うとZ-Image Turbo並みに速くなるが、明らかにクオリティが下がる。

少しCGっぽい質感も気になりますね。Z-Image Turboの方が好みですが、ディテールはQwen-Imageのほうがいいですね。

タイトルとURLをコピーしました