中国アリババのQwen系LLMの第3世代のQwen3のよく使うものの分類メモ。いろいろあってわかりにくい。
テキストLLM(Qwen3)
Qwen3
Qwen3はアリババのオープンソース大規模言語モデル。用途に応じた複数のサイズが展開されている。
Instruct版とThinking版がある。
Instruct:対話・指示実行向けで高速・軽量。
Thinking:分解思考を重視した深い推論向け。
| 正式名 | Qwen3 |
| 公開日 | 2025年4月29日 |
| 開発会社 | Alibaba |
| モデル規模 | Denseモデル 0.6B / 1.7B / 4B / 8B / 14B / 32B MoEモデル 30B-A3B / 235B-A22B |
| コンテキスト長 | 131K~1M |
2025年7月ごろにアップデート版がでており、2507がついている。
容量については8B × 2byte ≒ 16GBと2倍するとおおよそ想像できる。

使用例
Qwen3-Next
Qwen3の効率最優先に進化したアーキテクチャ。80Bクラスなのに推論時は3Bしか動かない。新しいサイズ追加ではなく、中身の設計思想が変わったモデル。
| 正式名 | Qwen3-Next |
| 公開日 | 2025年9月頃 |
| 開発会社 | Alibaba |
| モデル規模 | 80B-A3B Instruct/ 80B-A3B Thinking |

視覚モデル(Qwen3-VL)
Qwen3 VL
Qwen VLはアリババのQwenシリーズに属するマルチモーダルモデル群。視覚(画像・動画)とテキストを統合して理解・生成できるVision-Language Model(VLM)。
画像・動画・テキストの入力を受け取り、説明・要約・推論・コード生成などを行える。ベースとなるQwen LLMに視覚エンコーダを組み合わせた構成。
Instruct版とThinking版がある。
Instruct:対話・指示実行向けで高速・軽量。
Thinking:分解思考を重視した深い推論向け。
| 正式名 | Qwen3-VL |
| 公開日 | 2025年9月23日 |
| 開発会社 | Alibaba |
| モデル規模 | 2B / 4B / 8B / 30B / 32B MoEモデル 30B-A3B / 235B-A22B |
| コンテキスト長 | 256K |

使用例
Stable Diffusionのプロンプト支援アプリをつくる
動画生成用のプロンプト支援アプリをつくる
ComfyUIをバックエンドに使う画像・動画生成アプリをつくる
Qwen3-VLによる動画解析
音声認識モデル(Qwen3-ASR)
中国アリババのQwenLMが公開しているオープンソースの音声認識(Speech-to-Text)モデル。ASRは「Automated Speech Recognition」の略。
| 正式名 | Qwen3 ASR |
| 公開日 | 2026年1月29日 |
| 開発会社 | Alibaba |
| モデル規模 | 0.6B / 1.7B |
| 対応言語 | 52の言語と方言に対応(主要モデルは11言語に対応) |

使用例
Qwen3-ASRを使って動画音声の文字起こしをする
Qwen3-VLによる動画解析
音声合成モデル(Qwen3-TTS)
中国アリババのQwenLMが公開しているオープンソースの音声合成(TTS)モデル群。TTSは「Text-to-Speech」の略。日本語を含む10言語に対応している。3秒の音声だけで声を再現できる。
| 正式名 | Qwen3 TTS |
| 公開日 | 2026年1月22日 |
| 開発会社 | Alibaba |
| モデル規模 | 0.6B / 1.7B |
| 対応言語 | 中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、ポルトガル語、スペイン語、イタリア語 |


