動画のアップスケールとフレーム補完

動画生成AI

2026.01.262026.02.05

環境：ComfyUI 0.10.0, SeedVR2

WAN2.2で生成した81フレーム（５秒）のイラスト調の動画を高画質化するテスト。AIによるアップスケールとはどんなものなんだろうか。

元画像はStableDiffusionで生成したゾンビ女性。

1200 x 896

プロンプト：

masterpiece, best quality,

1girl,
dark brown hair,
zombie, (rotting flesh:0.2), (fresh blood:0.2), torn clothes, (blank eyes:0.8),
parted lips, bandage,
hospital patient,
mature, simple bob cut,

solo, portrait, dynamic angle, cowboy shot,
cinematic lighting, natural lighting, dynamic lighting, bounce light,
night,

目次

WAN2.2で動画化
1.5倍のスケールで生成する
1.5倍にアップスケール
フレーム補完

WAN2.2で動画化

よく使う640 x 480の解像度で生成。27.7秒ぐらいで生成できるちょうどいい解像度。

640 x 480 16fps 生成時間：27.7秒（RTX PRO 5000 Blackwell）

プロンプト：

a zombie standing idle, maintaining same posture,
minimal movement, subtle breathing, slight head sway,
no walking, no attacking, no blinking, lifeless eyes,

1.5倍のスケールで生成する

アップスケールせずに縦横それぞれ1.5倍の960 x 720で生成すると104.4秒かかった。これだとなかなかイテレーションを回すにはつらい生成時間。

960 x 720 16fps 生成時間：104.4秒（RTX PRO 5000 Blackwell）

画像生成AI特有のやっかいな問題として、解像度を変えると初期ノイズが変わるため結果が同じにはならないということ。低い解像度で試行錯誤して本番は高解像度で生成、という手法が効かない。この動画だと途中瞬きした後、瞳が描かれてしまっている・・。

1.5倍にアップスケール

中国ByteDance社が開発したSeedVR2を使ってみます。AIベースの高解像度化モデル。2Kや4Kまでアップスケール可能らしい。

ワークフローはComfyUIのテンプレートを使いました。

解像度640 x 360の動画を960 x 720へアップスケールしたもの。かかった時間は59.4秒。短くはない。

640 x 480 → 960 x 720 16fps 処理時間：59.4秒（RTX PRO 5000 Blackwell）

高解像度になっているけど、やはりアップスケール特有のにじみもある。

フレーム補完

FILM VFIというカスタムノードを使ってアップスケールした動画のフレーム数を2倍にしてみた。かかった時間は26.0秒。

960 x 720 32fps 処理時間：26.0秒（RTX PRO 5000 Blackwell）

ぬるぬる動いて、ゲームっぽくなりました。フレームレートが高くなると生々しい。どれがよいかは好みによりそうですね。

タイトルとURLをコピーしました