Qwen3-VLとQwen3-ASRによる動画解析

環境：Visual Studio Code, Claude Code(Sonnet 4.6)

以前からやってみたかった視覚言語モデルによる動画の解析をやってみました。前日の試作を拡張したものになります。
Qwen3-ASRを使って動画音声の文字起こしをする

仕様
実装
感想

仕様

今回利用したモデルは以下

・Qwen3-VL 8B（動画解析）
・Qwen3-ASR 1.7B（音声解析）

やらせてみたことは

・動画の内容を時系列で描写させる
・動画の目次を自動で作る

内容の精度を上げるために音声解析モデルも補助的に利用しました。
目次の作成には音声内容も利用しています。

フロントエンド：Electron
バックエンド：FastAPI
推論エンジン：Transformers, PyTorch

実装

ほとんどClaude Codeに組み立ててもらったのですが、動画を解析するといっても動画を1フレームずつ読ませるわけにはいかないらしく、均等サンプリングで動画全体から均等にN枚画像を切り出してモデルに渡す方法と、シーン検出というカットが変わるところをFFmpegを使って検出して代表カットを抜き出して渡す方法の２つを採用しました。