Qwen3.5シリーズ

いよいよ本命のモデルが来た感じがしますね。ローカルモデルのスタンダードになりそうです。

Qwen3.5

Qwen3.5は、Alibabaが開発した大規模言語モデル(LLM)シリーズで、Qwen3の後継にあたる改良版。

Qwen3.5 - a Qwen Collection
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
正式名Qwen3.5
公開日2026年2月16日
開発会社Alibaba
モデル規模フラグシップモデル
397B-A17B
ミディアムモデル
122B-A10B / 35B-A3B / 27B
スモールモデル
4B / 2B / 0.8B
コンテキスト長131K~1M

Qwen3.5は従来の「パラメータ数=性能」という設計から脱却し、Small〜Flagshipまで階層化されたモデル群として設計されている。特にMoEモデルでは「総パラメータ」と「実際に使うパラメータ」が分離されており、少ない計算量で高い性能を実現しているのが特徴。

パラメータ数容量コンテキスト長コメント
0.8B(Dense)GGUF(Q4): 1GB262KIoT / 超低レイテンシ
推論は弱い
2B(Dense)GGUF(Q4): 1.8GB262Kモバイル / エッジ
辞書に使えた
4B(Dense)GGUF(Q4): 3.15GB262K軽量のVLエージェント
9B(Dense)GGUF(Q4): 6.1GB262K(最大1M)GPT-OSS-120Bに匹敵するらしい
27B(Dense)GGUF(Q4): 16.2GB262K(最大1M)コーディング特化
個人的に中型の本命モデル
35B-A3B(MoE)GGUF(Q4): 20.5GB262K(最大1M)MoEで効率がよい
122B-A10B(MoE)GGUF(Q4): 75.1GB262K(最大1M)未検証
397B-A17B(MoE)GGUF(Q4): 214GB262K(最大1M)未検証

アーキテクチャの要点

Gated Delta Networks + MoE ハイブリッド
通常の Transformer アテンションはシーケンス長に対して二次的にスケールする(コンテキスト2倍 → 計算量4倍)。Qwen3.5 は 3:1 の比率で線形アテンション(DeltaNet)とフルアテンションを交互に配置することで、長いコンテキストでもほぼ線形にスケールする。

ネイティブマルチモーダル(Early Fusion)
ネイティブ視覚言語モデルとして設計されている。テキストモデルとビジョンモデルが統合され、従来は用途に応じてテキスト系列とビジョン系列を使い分ける必要があったが、Qwen3.5ではどのモデルを選んでもテキスト・画像・動画をシームレスに扱える。テキスト性能も維持しつつQwen3-VLを上回る視覚理解を実現している。

Thinking / Non-thinking モード
一つのモデルで推論モードと直接応答モードを切り替えられるため、前世代のように instruct 版と thinking 版を別々にデプロイする必要がない。

個人的おすすめ

私は27B Q6_K(20.5GB)をメインで使っています。Q_4_M(16.2GB)もよかったのですが、ちょっとした精度の差でこちらを使うことにしました。35B-A3Bも速いし悪くなかったのですがバランスは27Bのほうがよいと感じました。

このモデルを使った作例

ローカルLLMに長期記憶を持たせる

タイトルとURLをコピーしました