说实话,每次有人问我「我想跑个大模型,买什么显卡好」,我都得先反问三个问题:你要跑多大的模型?是推理还是训练?你能接受量化吗?
因为这三个变量一变,显存需求可以差出十倍。一个 70B 的模型,全精度推理要 140GB 显存,但 4-bit 量化以后只要 35GB——前者得上两张 A100,后者一张 RTX 5090 就搞定。训练就更夸张了,同样是 7B 模型,全参数微调要 100GB+,但用 QLoRA 的话 24GB 就够。
先搞清楚一个基本公式
显存占用的核心其实很简单:参数量 × 每个参数占的字节数。
不同精度下,每个参数占用的空间不一样:
- FP32(32位浮点):4 字节/参数
- FP16 / BF16(16位半精度):2 字节/参数
- INT8(8位整数):1 字节/参数
- INT4(4位整数):0.5 字节/参数
拿一个 7B(70亿参数)的模型来说,光模型权重就占这么多:
| 精度 | 7B | 13B | 32B | 70B |
|---|---|---|---|---|
| FP32 | 28 GB | 52 GB | 128 GB | 280 GB |
| FP16 | 14 GB | 26 GB | 64 GB | 140 GB |
| INT8 | 7 GB | 13 GB | 32 GB | 70 GB |
| INT4 | 3.5 GB | 6.5 GB | 16 GB | 35 GB |
但这只是模型权重本身。实际跑起来还有额外开销——推理时有 KV Cache(注意力缓存)和运行时开销,通常要加 20% 左右。训练就更多了,梯度、优化器状态、激活值这些加起来,显存需求会翻好几倍。
推理篇:跑模型其实没那么贵
推理是大多数人的需求——就是把一个训练好的模型加载进来,让它生成回答。这是显存需求最低的场景。
推理显存速查表
下面这张表假设使用 vLLM 或 llama.cpp 这类推理引擎,上下文长度 2K-4K tokens,单用户或小批量使用:
| 模型大小 | FP16 推理 | INT8 推理 | INT4 推理 |
|---|---|---|---|
| 3B-4B | ~8 GB | ~4 GB | ~2.5 GB |
| 7B-8B | ~17 GB | ~9 GB | ~5 GB |
| 13B-14B | ~31 GB | ~16 GB | ~8 GB |
| 32B | ~77 GB | ~38 GB | ~20 GB |
| 70B | ~168 GB | ~84 GB | ~42 GB |
(注:以上数字包含约 20% 的运行时开销)
量化到底损失多少质量?
这是很多人纠结的点。简单说:8-bit 量化几乎无损,4-bit 量化在日常使用中也很难感知到差异。
实际体验上,INT4 量化大约保留了原始模型 95-98% 的质量。除非你是做非常精细的评测或者对输出质量有极致要求的场景,否则 4-bit 量化是性价比之王。现在 GGUF 格式(llama.cpp 生态)的 Q4_K_M 量化方案已经成为社区公认的「甜点」配置,在显存节省和输出质量之间取得了很好的平衡。
更激进的量化(比如 3-bit 甚至 2-bit)也存在,但质量下降会更明显,适合对精度不敏感的简单任务。
推理场景 GPU 推荐
场景一:个人玩家跑 7B-8B 模型
这是入门级需求。7B 模型在 INT4 量化下只需要大约 5GB 显存,主流显卡都能搞定。
推荐方案:
- RTX 4060 Ti 16GB(约 ¥3500):舒适运行 7B 全精度或 13B 量化,性价比极高
- RTX 4060 8GB(约 ¥2500):能跑 7B INT4,够用但不太宽裕
- Mac M 系列(16GB 统一内存):跑 7B 模型体验不错,日常够用
实际表现:7B INT4 模型在 RTX 4060 Ti 上大概能跑 30-45 tokens/s,日常对话完全流畅。
场景二:进阶用户跑 13B-32B 模型
13B 到 32B 这个区间是目前开源模型的「甜点」——能力比 7B 明显提升,资源需求又没到天际。
推荐方案:
- RTX 4090 24GB(约 ¥12000):13B FP16 全精度无压力,32B INT4 刚好能塞下
- RTX 5090 32GB(约 ¥16000):32B 模型的最佳单卡选择,Blackwell 架构推理速度惊人
- 二手 RTX 3090 24GB(约 ¥5000-6000):穷人版 4090,24GB 显存一样能用,性价比无敌
值得一提的是,RTX 5090 在最新的基准测试中表现亮眼——跑 32B 模型的推理速度甚至略超 H100,而价格只是 H100 的零头。
场景三:部署 70B+ 大模型
70B 是目前开源模型的「天花板」级别(比如 LLaMA 3 70B),能力接近 GPT-4 水平。但资源需求也到了个人设备的极限。
推荐方案:
- 2× RTX 4090(约 ¥24000):70B INT4(~42GB)刚好能分到两张卡上跑,实测可行
- 2× RTX 5090(约 ¥32000):更宽裕,也更快
- 1× A100 80GB(云服务器):一张卡跑 70B INT4,简单粗暴
- 2× A100 80GB(云服务器):70B FP16 全精度,企业级品质
如果是生产环境部署,考虑 L40S(48GB)或 A100/H100 这类数据中心级显卡。它们虽然单卡推理速度不一定比消费级显卡快,但胜在稳定性、多用户并发能力和长期运行的可靠性。
训练篇:这才是真正烧显存的地方
训练(或者说微调)比推理烧钱多了。因为除了模型权重本身,还有三样东西要吃显存:
- 梯度(Gradients):和模型权重一样大,FP16 下每个参数 2 字节
- 优化器状态(Optimizer States):AdamW 优化器需要存两份状态(一阶矩和二阶矩),FP32 下每个参数 8 字节
- 激活值(Activations):取决于 batch size 和序列长度,可大可小
粗略估算,全参数微调的显存需求大约是纯推理的 4-6 倍。业界常用的经验法则是:FP16 全参数微调大约需要 每 10 亿参数 16GB 显存。
不同训练方式的显存对比
| 模型 | 全参数微调 (FP16) | LoRA (FP16) | QLoRA (INT4+LoRA) |
|---|---|---|---|
| 7B | 100-120 GB | 30-40 GB | 12-24 GB |
| 13B | 180-240 GB | 50-70 GB | 16-32 GB |
| 32B | 450-500 GB | 120-160 GB | 40-60 GB |
| 70B | 1000+ GB | 250-350 GB | 60-80 GB |
可以看到,全参数微调的显存需求是非常恐怖的。一个 7B 模型全参数微调就要 100GB+,这不是普通消费者能承受的。
LoRA 和 QLoRA:穷人的救星
好在 LoRA(Low-Rank Adaptation)和 QLoRA 的出现彻底改变了游戏规则。
LoRA 的思路是:冻结原始模型的所有参数,只训练一组很小的「适配器矩阵」。这些矩阵通常只有原始参数量的 0.1%-1%,所以显存需求大幅下降。训练完成后,这些适配器可以合并回原始模型,推理时没有任何额外开销。
QLoRA 在 LoRA 的基础上更进一步:把冻结的基础模型量化到 4-bit,只有被训练的 LoRA 适配器保持高精度。这样显存需求进一步降低 50% 以上。
实际效果呢?在大多数任务上,LoRA 微调能达到全参数微调 95-99% 的效果,QLoRA 也差不太多。对于绝大多数应用场景来说,这点差距完全可以忽略。
训练场景 GPU 推荐
场景一:用 QLoRA 微调 7B 模型
这是最低门槛的训练方案,也是很多个人开发者和小团队的首选。
推荐方案:
- RTX 4090 24GB(约 ¥12000):QLoRA 微调 7B 绰绰有余,LoRA 微调 7B 也没问题
- RTX 3090 24GB(约 ¥5000-6000 二手):一样能干,就是慢一点
- L40S 48GB(云服务器,约 $0.8-1.2/hr):更宽裕的选择,batch size 可以开大一点
一个典型的 7B QLoRA 微调任务,在 RTX 4090 上大概 3-4 小时就能完成,成本非常低。
场景二:微调 13B-32B 模型
模型大了,单卡就有点吃力了。
推荐方案:
- RTX 4090 24GB:QLoRA 微调 13B 可以,32B 有点紧张
- A100 80GB(云服务器,约 $1.5-2.5/hr):LoRA 微调 13B-32B 都很舒适
- 2× RTX 4090:QLoRA 微调 32B,需要用到模型并行
场景三:微调 70B 模型
这是重活了,至少需要一张 A100 80GB。
推荐方案:
- A100 80GB:QLoRA 微调 70B 刚好能装下
- 2× A100 80GB 或 H100 80GB:LoRA 微调 70B,更稳更快
- 4× A100 80GB:全参数微调 70B 的最低配置,一般只有大公司会这么干
场景四:从零预训练
如果你是要从零开始训练一个大模型(不是微调),那就是另一个量级的故事了。预训练一个 7B 模型可能需要数百张 A100/H100 跑几周。这不是个人和小团队考虑的范畴,这里就不展开了。
主流 GPU 速查表
最后整理一张表,方便查阅:
| GPU | 显存 | 大致价格 | 适合跑什么 |
|---|---|---|---|
| RTX 4060 Ti | 16 GB | ¥3,500 | 7B 推理,小模型量化推理 |
| RTX 3090(二手) | 24 GB | ¥5,000-6,000 | 7B-13B 推理,7B QLoRA 微调 |
| RTX 4090 | 24 GB | ¥12,000 | 13B-32B 量化推理,7B-13B QLoRA 微调 |
| RTX 5090 | 32 GB | ¥16,000 | 32B 推理的最佳消费卡,7B LoRA 微调 |
| L40S | 48 GB | 云 $0.8-1.2/hr | 32B FP16 推理,13B LoRA 微调 |
| A100 80GB | 80 GB | 云 $1.5-2.5/hr | 70B INT4 推理,70B QLoRA 微调 |
| H100 80GB | 80 GB | 云 $2.5-4.0/hr | 大规模推理和训练,企业首选 |
| H200 | 141 GB | 云定价较贵 | 70B FP16 推理,超长上下文场景 |
(注:价格为 2025 年初的大致参考,实际价格随市场波动)
一些实用建议
如果你只是想玩玩大模型、聊聊天,一张 RTX 4060 Ti 16GB 跑 7B-8B 量化模型就足够了。Qwen、LLaMA、Mistral 这些 7B-8B 级别的模型现在质量已经相当不错。
如果你想要更好的效果但预算有限,去二手市场淘一张 RTX 3090。24GB 显存在这个价位无人能敌,13B 量化模型随便跑,7B 的 QLoRA 微调也没问题。
如果你是认真做项目,RTX 4090 或 RTX 5090 是消费级的天花板。特别是 5090,32GB 显存加上 Blackwell 架构的高效推理,在跑 32B 模型时甚至能媲美 A100。
如果你是企业用户或者跑生产环境,老老实实上 A100/H100/B100。不是因为消费卡不能用,而是因为数据中心级显卡在稳定性、散热、多卡扩展和长期运行方面都更靠谱。云服务器按需付费也是很好的选择,特别是对于不频繁的训练任务。
关于 Apple Silicon,M 系列芯片的统一内存架构有个独特优势——内存就是显存,128GB 的 MacBook Pro M4 Max 理论上可以跑 70B 量化模型。但推理速度比不过同级别的 NVIDIA GPU,适合对速度要求不高但需要本地运行大模型的场景。
最后一句话总结:显存是硬门槛,算力决定速度,量化是省钱利器。先确定你要跑什么模型、做什么任务,再对着上面的表选卡,基本不会踩坑。

发表回复