LTX-2で画像から動画を生成してみる

環境:LTX-2, ComfyUI 0.8.2

イスラエルのLightricksが先日公開した動画生成AIのLTX-2を使ってみました。

正式名LTX-2
公開日2026年1月6日
開発会社Lightricks
ライセンスApache License 2.0(商用利用可)
モデル規模190億パラメータ(19B)

特徴

・環境音や会話音声を含む動画を生成できる
・4Kに対応
・20秒まで生成できる
・50fpsの滑らかなフレームレート

ワークフロー

ComfyUIのプリインストールされているテンプレートを利用。

ファイルの構成

24GB以上のVRAMが推奨のようです。

標準版

Checkpoints
ltx-2-19b-dev-fp8.safetensors(25.2GB)
拡散モデル本体。画像を描くモデル。FP8精度。

LoRA
ltx-2-19b-distilled-lora-384.safetensors(7.15GB)
少ないステップで高速に生成するための加速装置。

ltx-2-19b-lora-camera-control-dolly-left.safetensors(312MB)
カメラワークを指定する制御装置。

Text Encoder
gemma_3_12B_it.safetensors(22.7GB)
テキスト理解・プロンプト解釈用LLM(言語モデル)。GoogleのGemma 3。

Latent Upscale Model
ltx-2-spatial-upscaler-x2-1.0.safetensors(949MB)
潜在空間(latent space)のまま拡大処理を行うためのモデル。

蒸留版

蒸留版といってもFP16精度なのでこちらのほうが高クオリティ版。たぶん。

標準版との違いはCheckpointsのみ。

Checkpoints
ltx-2-19b-distilled.safetensors(40.3GB)
拡散モデル本体。画像を描くモデル。FP16精度。

Text Encoder
gemma_3_12B_it.safetensors(22.7GB)

LoRA
ltx-2-19b-lora-camera-control-dolly-left.safetensors(312MB)

Latent Upscale Model
ltx-2-spatial-upscaler-x2-1.0.safetensors(949MB)

プロンプト

テキストエンコーダーにGoogleのGemma 3が使われているため、日本語のプロンプトも使えそうです。

プロンプトの書き方は公式ページを参考にする。
https://ltx.io/model/model-blog/prompting-guide-for-ltx-2

公式サンプルのプロンプト

A close-up shot of a young waitress in a retro 1950s diner,
her warm brown eyes meeting the camera with a gentle smile.
The camera begins slightly to her side, then slowly pushes in toward her face,
revealing the subtle rosy blush on her cheeks.
In the blurred background,  The ambient sounds of clinking dishes,
distant conversations, and the gentle hum of a jukebox fill the air.
She tilts her head slightly and says in a friendly,
warm voice: "Welcome to Rosie's. What can I get for you today?" The mood is inviting,
timeless, and full of classic American diner charm.

時系列で書くとよさそうですね。

作例:Image to Video

ミニチュア風景

Qwen Imageで生成した有名キャラクターの絵を使ってみる。

640 x 360の低解像度で25フレーム/秒でレンダリングしてみたもの。

640×360 / 25fps

プロンプト:

キャラクターは泣いている。上から何度も土が降ってきて、埋まっていく。

リアルな風景

通勤風景

Qwen Imageで生成した画像を使う。

640×360 / 25fps

プロンプト:

アクションシーン。
人がたくさん乗った通勤電車がカメラに向かって走ってくる。カメラは電車を追う。
街の環境音。電車が過ぎ去る音。

自転車レース

Z-Image Turboで生成した画像を使う。

640×360 / 25fps なぜかエンジン音。笑

プロンプト:

アクションシーン。
自転車レース。猫があたりを見回している。
自転車は前方にいるライバルを追い抜いていく。

感想

初めての動画生成だったわけですが、絵が動くだけで楽しいですね。いまのところ実写風の画像は上手くいくけど、イラスト調はぎこちない結果になりがちという印象です。尺の長さを変えると上手くいったり、いかなかったりでコツが掴めません。プロンプトの書き方が間違っていそう。試行錯誤していかないといい物は作れなさそうですね。

途中経過が確認できないので上手くいっているか不安になりますね。なので、高解像度の長尺はまだ作れてません。解像度を変えるとノイズが変わるのか結果も微妙に変わるのも困りもの・・。CGに慣れ親しんできた身としてはAIは不確定要素が多い印象があります。

しょうもない小ネタはたくさんあるので、時間があったら少しずつ映像化していこうと思います。笑

タイトルとURLをコピーしました