環境:ComfyUI 0.10.0, SeedVR2
WAN2.2で生成した81フレーム(5秒)のイラスト調の動画を高画質化するテスト。AIによるアップスケールとはどんなものなんだろうか。
元画像はStableDiffusionで生成したゾンビ女性。

プロンプト:
masterpiece, best quality,
1girl,
dark brown hair,
zombie, (rotting flesh:0.2), (fresh blood:0.2), torn clothes, (blank eyes:0.8),
parted lips, bandage,
hospital patient,
mature, simple bob cut,
solo, portrait, dynamic angle, cowboy shot,
cinematic lighting, natural lighting, dynamic lighting, bounce light,
night,WAN2.2で動画化
よく使う640 x 360の解像度で生成。27.7秒ぐらいで生成できるちょうどいい解像度。
プロンプト:
a zombie standing idle, maintaining same posture,
minimal movement, subtle breathing, slight head sway,
no walking, no attacking, no blinking, lifeless eyes,1.5倍のスケールで生成する
アップスケールせずに縦横それぞれ1.5倍の960 x 720で生成すると104.4秒かかった。これだとなかなかイテレーションを回すにはつらい生成時間。
画像生成AI特有のやっかいな問題として、解像度を変えると初期ノイズが変わるため結果が同じにはならないということ。低い解像度で試行錯誤して本番は高解像度で生成、という手法が効かない。この動画だと途中瞬きした後、瞳が描かれてしまっている・・。
1.5倍にアップスケール
中国ByteDance社が開発したSeedVR2を使ってみます。AIベースの高解像度化モデル。2Kや4Kまでアップスケール可能らしい。
ワークフローはComfyUIのテンプレートを使いました。

解像度640 x 360の動画を960 x 720へアップスケールしたもの。かかった時間は59.4秒。短くはない。
高解像度になっているけど、やはりアップスケール特有のにじみもある。
フレーム補完
FILM VFIというカスタムノードを使ってアップスケールした動画のフレーム数を2倍にしてみた。かかった時間は26.0秒。
ぬるぬる動いて、ゲームっぽくなりました。フレームレートが高くなると生々しい。どれがよいかは好みによりそうですね。

