いよいよ本命のモデルが来た感じがしますね。ローカルモデルのスタンダードになりそうです。
Qwen3.5
Qwen3.5は、Alibabaが開発した大規模言語モデル(LLM)シリーズで、Qwen3の後継にあたる改良版。

| 正式名 | Qwen3.5 |
| 公開日 | 2026年2月16日 |
| 開発会社 | Alibaba |
| モデル規模 | フラグシップモデル 397B-A17B ミディアムモデル 122B-A10B / 35B-A3B / 27B スモールモデル 4B / 2B / 0.8B |
| コンテキスト長 | 131K~1M |
Qwen3.5は従来の「パラメータ数=性能」という設計から脱却し、Small〜Flagshipまで階層化されたモデル群として設計されている。特にMoEモデルでは「総パラメータ」と「実際に使うパラメータ」が分離されており、少ない計算量で高い性能を実現しているのが特徴。
| パラメータ数 | 容量 | コンテキスト長 | コメント |
| 0.8B(Dense) | GGUF(Q4): 1GB | 262K | IoT / 超低レイテンシ 推論は弱い |
| 2B(Dense) | GGUF(Q4): 1.8GB | 262K | モバイル / エッジ 辞書に使えた |
| 4B(Dense) | GGUF(Q4): 3.15GB | 262K | 軽量のVLエージェント |
| 9B(Dense) | GGUF(Q4): 6.1GB | 262K(最大1M) | GPT-OSS-120Bに匹敵するらしい |
| 27B(Dense) | GGUF(Q4): 16.2GB | 262K(最大1M) | コーディング特化 個人的に中型の本命モデル |
| 35B-A3B(MoE) | GGUF(Q4): 20.5GB | 262K(最大1M) | MoEで効率がよい |
| 122B-A10B(MoE) | GGUF(Q4): 75.1GB | 262K(最大1M) | 未検証 |
| 397B-A17B(MoE) | GGUF(Q4): 214GB | 262K(最大1M) | 未検証 |
アーキテクチャの要点
Gated Delta Networks + MoE ハイブリッド
通常の Transformer アテンションはシーケンス長に対して二次的にスケールする(コンテキスト2倍 → 計算量4倍)。Qwen3.5 は 3:1 の比率で線形アテンション(DeltaNet)とフルアテンションを交互に配置することで、長いコンテキストでもほぼ線形にスケールする。
ネイティブマルチモーダル(Early Fusion)
ネイティブ視覚言語モデルとして設計されている。テキストモデルとビジョンモデルが統合され、従来は用途に応じてテキスト系列とビジョン系列を使い分ける必要があったが、Qwen3.5ではどのモデルを選んでもテキスト・画像・動画をシームレスに扱える。テキスト性能も維持しつつQwen3-VLを上回る視覚理解を実現している。
Thinking / Non-thinking モード
一つのモデルで推論モードと直接応答モードを切り替えられるため、前世代のように instruct 版と thinking 版を別々にデプロイする必要がない。
個人的おすすめ
私は27B Q6_K(20.5GB)をメインで使っています。Q_4_M(16.2GB)もよかったのですが、ちょっとした精度の差でこちらを使うことにしました。35B-A3Bも速いし悪くなかったのですがバランスは27Bのほうがよいと感じました。

