Qwen3.5シリーズ

いよいよ本命のモデルが来た感じがしますね。ローカルモデルのスタンダードになりそうです。

Qwen3.5

Qwen3.5は、Alibabaが開発した大規模言語モデル（LLM）シリーズで、Qwen3の後継にあたる改良版。

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

正式名	Qwen3.5
公開日	2026年2月16日
開発会社	Alibaba
モデル規模	フラグシップモデル 397B-A17B ミディアムモデル 122B-A10B / 35B-A3B / 27B スモールモデル 4B / 2B / 0.8B
コンテキスト長	131K～1M

Qwen3.5は従来の「パラメータ数＝性能」という設計から脱却し、Small〜Flagshipまで階層化されたモデル群として設計されている。特にMoEモデルでは「総パラメータ」と「実際に使うパラメータ」が分離されており、少ない計算量で高い性能を実現しているのが特徴。

パラメータ数	容量	コンテキスト長	コメント
0.8B(Dense)	GGUF(Q4): 1GB	262K	IoT / 超低レイテンシ推論は弱い
2B(Dense)	GGUF(Q4): 1.8GB	262K	モバイル / エッジ辞書に使えた
4B(Dense)	GGUF(Q4): 3.15GB	262K	軽量のVLエージェント
9B(Dense)	GGUF(Q4): 6.1GB	262K（最大1M）	GPT-OSS-120Bに匹敵するらしい
27B(Dense)	GGUF(Q4): 16.2GB	262K（最大1M）	コーディング特化個人的に中型の本命モデル
35B-A3B(MoE)	GGUF(Q4): 20.5GB	262K（最大1M）	MoEで効率がよく速い精度は27Bが上か
122B-A10B(MoE)	GGUF(Q4): 75.1GB	262K（最大1M）	未検証
397B-A17B(MoE)	GGUF(Q4): 214GB	262K（最大1M）	未検証

アーキテクチャの要点

Gated Delta Networks + MoE ハイブリッド
通常の Transformer アテンションはシーケンス長に対して二次的にスケールする（コンテキスト2倍 → 計算量4倍）。Qwen3.5 は 3:1 の比率で線形アテンション（DeltaNet）とフルアテンションを交互に配置することで、長いコンテキストでもほぼ線形にスケールする。

ネイティブマルチモーダル（Early Fusion）
ネイティブ視覚言語モデルとして設計されている。テキストモデルとビジョンモデルが統合され、従来は用途に応じてテキスト系列とビジョン系列を使い分ける必要があったが、Qwen3.5ではどのモデルを選んでもテキスト・画像・動画をシームレスに扱える。テキスト性能も維持しつつQwen3-VLを上回る視覚理解を実現している。

Thinking / Non-thinking モード
一つのモデルで推論モードと直接応答モードを切り替えられるため、前世代のように instruct 版と thinking 版を別々にデプロイする必要がない。