
LLM(大規模言語モデル)でよく見るQ4_K_MやQ5_K_Lなどの量子化表記は
重みを何ビットで、どんな単位・方式で量子化しているか
を表している。
Q4 _K _M
│ │ └─ 量子化バリアント(品質寄り / 速度寄り)
│ └──── K-quant(ブロック単位の改良量子化)
└──────── 1重みあたりのビット数結論から書くと、迷ったらQ4_K_Mを選べば間違いない。
Q4_K_M → 「4bitだが軽くて賢い」
Q5_K_M → 「実用上ほぼ無劣化」
Q4, Q5, Q6の意味
それぞれの数字はビット数を表している。
| 表記 | 意味 | 特徴 |
| Q4 | 4bit量子化、24 = 16段階 | 軽い・速い・VRAM節約 |
| Q5 | 5bit量子化、25 = 32段階 | Q4より精度が上がりサイズも増す |
| Q6 | 6bit | ほぼFP16に近い |
| Q8 | 8bit | 高精度・サイズ大 |
1bitごとに品質は緩やかに上がるが、サイズは確実に増える。
ちなみにLLMの学習で基準品質となっているFP16 は「16-bit Floating Point(16ビット浮動小数点)」の略。
8ビットが実用量子化の上限(ハードウェア都合)。
_Kの意味
K = K-quantization(改良型ブロック量子化)
従来:
段階を一定サイズで同じスケールでブロック
精度劣化がでやすい
k-quant:
重要な重みをより丁寧に扱う
ブロック内で非線形補正
現在では_Kはほぼ必須で、_0や_1は古いので非推奨。
_Mの意味
_S, _M, _LはSmall, Medium, Largeの略。
| バリアント | 傾向 |
| _S | Small / 速度・軽さ優先 |
| _M | 品質と速度のバランス |
| _L | Large / 品質寄り |
量子化とサイズ
FP16は8bitの2倍のデータ量。といっても量子化でメタデータ(スケール等)も追加されるのできっちり理論通りにはならない。
| 形式 | サイズ(FP16比) |
| FP16 | 1.00 |
| Q8_K | 約 0.55~0.6 |
| Q6_K | 約 0.45 |
| Q5_K_M | 約 0.35 |
| Q4_K_M | 約 0.25 |
具体例(7Bモデル)
| 形式 | サイズ |
| FP16 | 約 14GB |
| Q8_K | 約 8GB |
| Q5_K_M | 約 5GB |
| Q4_K_M | 約 3.5GB |
VRAM別のおすすめライン
| VRAM | 量子化モデル |
| 12GB | 7B Q8 |
| 16GB | 13B Q5 / Q6 |
| 24GB | 13B Q8 / 30B Q4 |
| 48GB | 70B Q4 |

