
ローカル環境でAIを動かすことにロマンを感じる人です。昨今のハードウェア事情に疎かったため、GPU性能と扱えるAIモデルをまとめてみました。
VRAM容量
生成AIにはVRAMの容量が重要
画像生成AIやLLMのモデルは数GB~数十GBのパラメータを持っている。これをまるごとVRAMに載せられないと高速処理ができない。
7B(70億パラメータ)のモデルは
float16(2バイト)で約14GB → 4bit量子化して約4GB前後
また推論中の中間データが一時的にVRAMを占有するため、モデル本体とは別に容量の余裕が必要になる。
※量子化とは重み(パラメータ)を通常の16bitや32bitではなく4bit(16段階)に丸めて圧縮する手法。
画像生成AIモデル
| VRAM容量 | 解像度 | 対象GPU |
| 4GB~8GB | 512×512 | GeForce RTX 3070 |
| 8GB~10GB | 768×768 | GeForce RTX 4070 |
| 12GB~16GB | 1024×1024 | GeForce RTX 5070 Ti GeForce RTX 4090 GeForce RTX 5090 |
LLMモデル
| VRAM容量 | パラメータ数 | 対象GPU |
| 4GB~6GB | 3B(30億パラメータ) | GeForce RTX 3070 |
| 8GB~10GB | 7B | GeForce RTX 4070 |
| 12GB~16GB | 13B | GeForce RTX 5080 GeForce RTX 5070 Ti GeForce RTX 4090 |
| 24GB~ | 30B | GeForce RTX 5090 |
VRAMが不足した場合
CPU/SSDへオフロードすることになり、処理が激遅になる。
発売されているGPUとVRAM
| 製品名 | VRAM容量 | メモリと速度 | 発売時期 | 価格(2025/11) |
| GeForce RTX 3070 | 8GB | GDDR6 (448GB/s) | 2020/9 | – |
| GeForce RTX 4070 | 12GB | GDDR6 (480GB/s) | 2023/4 | 約9万円 |
| GeForce RTX 4090 | 24GB | GDDR6 (1008GB/s) | 2022/9 | 約30万円 |
| GeForce RTX 5070 Ti | 16GB | GDDR7 (896GB/s) | 2025/1 | 約16万円 |
| GeForce RTX 5080 | 16GB | GDDR7 (960GB/s) | 2025/1 | 約20万円 |
| GeForce RTX 5090 | 32GB | GDDR7 (1792GB/s) | 2025/1 | 約60万円 |
自分が所有しているVRAM12GBのRTX4070は画像生成AIは768×768あたり、LLMは7Bあたりまでを快適に実行できる。やはりRTX4090が欲しくなりますね・・。
処理速度
処理速度に関してはTensorコアやCUDAコアの数と世代に依存する。
| 製品名 | コア名 | コアクロック(MHz) | CUDAコア数 | Tensorコア数 | AI TOPS | 消費電力(W) |
| RTX 3070 | GA104(8nm) | 1500-1725 | 5888 | 184 | 163 | 220 |
| RTX 4070 | AD104(4nm) | 1920-2475 | 5888 | 184 | 466 | 200 |
| RTX 4090 | AD102(4nm) | 2235-2520 | 16384 | 512 | 1321 | 450 |
| RTX 5070 Ti | GB203(4nm) | 2295-2452 | 8960 | 280 | 1406 | 300 |
| RTX 5080 | GB203(4nm) | 2295-2617 | 10752 | 336 | 1801 | 360 |
| RTX 5090 | GB202(4nm) | 2017-2407 | 21760 | 680 | 3352 | 575 |
TOPSとは
AI対応PCの性能指標に使われるTOPSという単位。(Microsoftが発表したCopilot+ PCの性能要件は40TOPS)
これは1秒間に何兆回の整数演算ができるかを表している。AI分野におけるTOPSは8-bit精度(INT8)の整数演算の回数を表す。
参考
https://www.nvidia.com/ja-jp/geforce/graphics-cards/50-series/

