【Q4_K_M】量子化の読み方【Q5_K_L】

LLM(大規模言語モデル)でよく見るQ4_K_MやQ5_K_Lなどの量子化表記は
重みを何ビットで、どんな単位・方式で量子化しているか
を表している。

Q4   _K   _M
│    │    └─ 量子化バリアント(品質寄り / 速度寄り)
│    └──── K-quant(ブロック単位の改良量子化)
└──────── 1重みあたりのビット数

結論から書くと、迷ったらQ4_K_Mを選べば間違いない

Q4_K_M → 「4bitだが軽くて賢い」
Q5_K_M → 「実用上ほぼ無劣化」

Q4, Q5, Q6の意味

それぞれの数字はビット数を表している。

表記意味特徴
Q44bit量子化、24 = 16段階軽い・速い・VRAM節約
Q55bit量子化、25 = 32段階Q4より精度が上がりサイズも増す
Q66bitほぼFP16に近い
Q88bit高精度・サイズ大

1bitごとに品質は緩やかに上がるが、サイズは確実に増える。

ちなみにLLMの学習で基準品質となっているFP16 は「16-bit Floating Point(16ビット浮動小数点)」の略。
8ビットが実用量子化の上限(ハードウェア都合)。

_Kの意味

K = K-quantization(改良型ブロック量子化)

従来:
段階を一定サイズで同じスケールでブロック
精度劣化がでやすい

k-quant:
重要な重みをより丁寧に扱う
ブロック内で非線形補正

現在では_Kはほぼ必須で、_0や_1は古いので非推奨。

_Mの意味

_S, _M, _LはSmall, Medium, Largeの略。

バリアント傾向
_SSmall / 速度・軽さ優先
_M品質と速度のバランス
_LLarge / 品質寄り

量子化とサイズ

FP16は8bitの2倍のデータ量。といっても量子化でメタデータ(スケール等)も追加されるのできっちり理論通りにはならない。

形式サイズ(FP16比)
FP161.00
Q8_K約 0.55~0.6
Q6_K約 0.45
Q5_K_M約 0.35
Q4_K_M約 0.25

具体例(7Bモデル)

形式サイズ
FP16約 14GB
Q8_K約 8GB
Q5_K_M約 5GB
Q4_K_M約 3.5GB

VRAM別のおすすめライン

VRAM量子化モデル
12GB7B Q8
16GB13B Q5 / Q6
24GB13B Q8 / 30B Q4
48GB70B Q4

タイトルとURLをコピーしました