環境:WAN2.2, ComfyUI 0.8.2
LTX-2でのAI動画生成が楽しかったので、有名なWAN2.2を触ってみました。AI動画生成は難しい印象がありましたが、ComfyUIのテンプレートのおかげで導入が簡単ですね。
| 正式名 | WAN2.2 |
| 公開日 | 2025年7月28日 |
| 開発会社 | Alibaba / WAN AI |
| ライセンス | Apache License 2.0(商用利用可) |
| モデル規模 | 140億パラメータ(14B) |
| 検閲 | なし |
ワークフロー
ComfyUIのプリインストールされているテンプレートを利用。14Bモデル。

ファイルの構成
Diffusion Models
wan2.2_i2v_high_noise_14B_fp8_scaled.safetensors(13.3GB)
wan2.2_i2v_low_noise_14B_fp8_scaled.safetensors(13.3GB)
拡散モデル本体。画像を描くモデル。FP8精度。
High noise:「大きな構造、動き、全体の流れ」を決める役割
Low noise:「細部・質感・安定性」を詰める役割
LoRA
wan2.2_i2v_lightx2v_4steps_lora_v1_high_noise.safetensors(1.14GB)
wan2.2_i2v_lightx2v_4steps_lora_v1_low_noise.safetensors(1.14GB)
少ないステップで高速に生成するための加速装置。
Text Encoder
umt5_xxl_fp8_e4m3fn_scaled.safetensors(6.27GB)
テキストエンコーダ。多言語対応。
VAE
wan_2.1_vae.safetensors(242MB)
実画像↔潜在表現の変換。編集前画像の読み込みと最終出力の復元に必須。
作例
安定して高品質な動画を生成するための適切なフレーム数は81フレーム(モデルが81フレームのデータで学習しているため)。16fpsで再生した時に5秒となる。
プロンプトが空のままでも、画像の雰囲気を読み取って適当な動作をつけた動画を生成してくれます。これには驚きました。画像を生成した後、とりあえず動いているところを見てみたい、ということが多いので助かります。
都市風景
Z-Image Turboで生成したミニチュア都市風景。

この画像をインプットにつなぎ、プロンプトなしで動画生成してみた。画像の意味を把握して、クルマが勝手に走り出しました。
どこからともなくスポーンしたり、橋の下をくぐると違うクルマになってたりますが、全体的に自然で驚きました。
海上の空母
船首で波を切り、白い航跡を引きながら海を進む空母。Qwen-Image-2512でミニチュア風に生成。

プロンプトなしで生成したら、思ってた通りの白波が発生してくれました。
640 x 480, 121Framesの動画生成にかかる時間はRTX PRO 5000では50秒ほど。
戦車
第二次世界大戦の戦車ジオラマ。Qwen-Image-2512で生成。

プロンプトなしだと戦車が後退してしまったので、動きを指定した。
プロンプト:
戦車がカメラに向かって走ってくる。カメラは固定。電車
チルトシフトレンズで撮ったような電車の風景。Qwen-Image-2512で生成。

720pを81フレームで、24fpsで作成してみた。3秒の動画。
ローラーコースター
Qwen-Imageで生成したローラーコースターに乗る猫。

歩く女
Stable Diffuionで生成した、夜の街を歩く女性。イラスト調も上手くいくだろうか。

ちゃんとカメラに向かって進む動画になった。イラストレーションのスタイルも保たれていて、歩き方も雰囲気に合っている。
歩く男たち
モーションもまばらで歩いてくれる。

感想
かなりバランスのいいモデルですね。LTX-2の制御の難しさに比べると、予想通りの動きをしてくれます。
定点カメラで、ちょっと画像を動かしてみたい、という用途にはかなり向いていると思います。クオリティも高いし、絵の一貫性が保たれているのもすごいですね。プロンプトなしでも意図通りの動きをしてくれる賢さにも感心します。
標準で81フレームはさすがに短いのでもう少し長くなるように進化して欲しいですね。とはいえWAN2.5以降のバージョンがクローズドモデルなので、オープンソース版がリリースされるか心配です。

