【Q4_K_M】量子化の読み方【Q5_K_L】

LLM（大規模言語モデル）でよく見るQ4_K_MやQ5_K_Lなどの量子化表記は
重みを何ビットで、どんな単位・方式で量子化しているか
を表している。

Q4   _K   _M
│    │    └─ 量子化バリアント（品質寄り / 速度寄り）
│    └──── K-quant（ブロック単位の改良量子化）
└──────── 1重みあたりのビット数

結論から書くと、迷ったらQ4_K_Mを選べば間違いない。

Q4_K_M → 「4bitだが軽くて賢い」
Q5_K_M → 「実用上ほぼ無劣化」

Q4, Q5, Q6の意味

それぞれの数字はビット数を表している。

1bitごとに品質は緩やかに上がるが、サイズは確実に増える。

ちなみにLLMの学習で基準品質となっているFP16 は「16-bit Floating Point（16ビット浮動小数点）」の略。
8ビットが実用量子化の上限（ハードウェア都合）。

K = K-quantization（改良型ブロック量子化）

従来：
段階を一定サイズで同じスケールでブロック
精度劣化がでやすい

k-quant：
重要な重みをより丁寧に扱う
ブロック内で非線形補正

現在では_Kはほぼ必須で、_0や_1は古いので非推奨。

_S, _M, _LはSmall, Medium, Largeの略。

FP16は8bitの２倍のデータ量。といっても量子化でメタデータ（スケール等）も追加されるのできっちり理論通りにはならない。

具体例（7Bモデル）