WAN2.2 14Bで画像を動画に変換してみる

環境：WAN2.2, ComfyUI 0.8.2

LTX-2でのAI動画生成が楽しかったので、有名なWAN2.2を触ってみました。AI動画生成は難しい印象がありましたが、ComfyUIのテンプレートのおかげで導入が簡単ですね。

最適な解像度：720Pおよび480P（例：1280 x 720, ‘832 x 480’）
最適なフレーム：81フレーム

ワークフロー

ComfyUIのプリインストールされているテンプレートを利用。14Bモデル。

	ファイルと容量	コメント
Diffusion Models	wan2.2_i2v_high_noise_14B_fp8_scaled.safetensors(13.3GB)	拡散モデル本体。画像を描くモデル。FP8精度。 High noise：「大きな構造、動き、全体の流れ」を決める役割
Diffusion Models	wan2.2_i2v_low_noise_14B_fp8_scaled.safetensors(13.3GB)	Low noise：「細部・質感・安定性」を詰める役割
LoRA	wan2.2_i2v_lightx2v_4steps_lora_v1_high_noise.safetensors(1.14GB)	少ないステップで高速に生成するための加速装置。
LoRA	wan2.2_i2v_lightx2v_4steps_lora_v1_low_noise.safetensors(1.14GB)
Text Encoder	umt5_xxl_fp8_e4m3fn_scaled.safetensors(6.27GB)	テキストエンコーダ。多言語対応。
VAE	wan_2.1_vae.safetensors(242MB)	実画像↔潜在表現の変換。編集前画像の読み込みと最終出力の復元に必須。

Diffusion ModelsもLoRAもHiとLowそれぞれふたつあります。

安定して高品質な動画を生成するための適切なフレーム数は81フレーム（モデルが81フレームのデータで学習しているため）。16fpsで再生した時に5秒となる。

プロンプトが空のままでも、画像の雰囲気を読み取って適当な動作をつけた動画を生成してくれます。これには驚きました。画像を生成した後、とりあえず動いているところを見てみたい、ということが多いので助かります。

Z-Image Turboで生成したミニチュア都市風景。

この画像をインプットにつなぎ、プロンプトなしで動画生成してみた。画像の意味を把握して、クルマが勝手に走り出しました。

640 x 480 121frames 16fps プロンプトなし

どこからともなくスポーンしたり、橋の下をくぐると違うクルマになってたりますが、全体的に自然で驚きました。

船首で波を切り、白い航跡を引きながら海を進む空母。Qwen-Image-2512でミニチュア風に生成。

プロンプトなしで生成したら、思ってた通りの白波が発生してくれました。

640 x 480 121frames 16fps プロンプトなし

640 x 480, 121Framesの動画生成にかかる時間はRTX PRO 5000では50秒ほど。

第二次世界大戦の戦車ジオラマ。Qwen-Image-2512で生成。

プロンプトなしだと戦車が後退してしまったので、動きを指定した。

640 x 480 121frames 16fps

プロンプト：

戦車がカメラに向かって走ってくる。カメラは固定。

チルトシフトレンズで撮ったような電車の風景。Qwen-Image-2512で生成。

720pを81フレームで、24fpsで作成してみた。3秒の動画。

1280 x 720 81frames 24fps プロンプトなし

Qwen-Imageで生成したローラーコースターに乗る猫。

640 x 480 81frames 16fps プロンプトなし

Stable Diffuionで生成した、夜の街を歩く女性。イラスト調も上手くいくだろうか。

640 x 480 121frames 16fps プロンプトなし

ちゃんとカメラに向かって進む動画になった。イラストレーションのスタイルも保たれていて、歩き方も雰囲気に合っている。

モーションもまばらで歩いてくれる。

640 x 480 81frames 16fps プロンプトなし

かなりバランスのいいモデルですね。LTX-2の制御の難しさに比べると、予想通りの動きをしてくれます。

定点カメラで、ちょっと画像を動かしてみたい、という用途にはかなり向いていると思います。クオリティも高いし、絵の一貫性が保たれているのもすごいですね。プロンプトなしでも意図通りの動きをしてくれる賢さにも感心します。

標準で81フレームはさすがに短いのでもう少し長くなるように進化して欲しいですね。とはいえWAN2.5などの以降のバージョンがクローズドモデルなので、オープンソース版がリリースされるか心配です。