跑大模型到底要多少显存？从推理到训练，一篇讲透 GPU 选择

说实话，每次有人问我「我想跑个大模型，买什么显卡好」，我都得先反问三个问题：你要跑多大的模型？是推理还是训练？你能接受量化吗？

因为这三个变量一变，显存需求可以差出十倍。一个 70B 的模型，全精度推理要 140GB 显存，但 4-bit 量化以后只要 35GB——前者得上两张 A100，后者一张 RTX 5090 就搞定。训练就更夸张了，同样是 7B 模型，全参数微调要 100GB+，但用 QLoRA 的话 24GB 就够。

先搞清楚一个基本公式

显存占用的核心其实很简单：参数量 × 每个参数占的字节数。

不同精度下，每个参数占用的空间不一样：

FP32（32位浮点）：4 字节/参数
FP16 / BF16（16位半精度）：2 字节/参数
INT8（8位整数）：1 字节/参数
INT4（4位整数）：0.5 字节/参数

拿一个 7B（70亿参数）的模型来说，光模型权重就占这么多：

精度	7B	13B	32B	70B
FP32	28 GB	52 GB	128 GB	280 GB
FP16	14 GB	26 GB	64 GB	140 GB
INT8	7 GB	13 GB	32 GB	70 GB
INT4	3.5 GB	6.5 GB	16 GB	35 GB

但这只是模型权重本身。实际跑起来还有额外开销——推理时有 KV Cache（注意力缓存）和运行时开销，通常要加 20% 左右。训练就更多了，梯度、优化器状态、激活值这些加起来，显存需求会翻好几倍。

推理篇：跑模型其实没那么贵

推理是大多数人的需求——就是把一个训练好的模型加载进来，让它生成回答。这是显存需求最低的场景。

推理显存速查表

下面这张表假设使用 vLLM 或 llama.cpp 这类推理引擎，上下文长度 2K-4K tokens，单用户或小批量使用：

模型大小	FP16 推理	INT8 推理	INT4 推理
3B-4B	~8 GB	~4 GB	~2.5 GB
7B-8B	~17 GB	~9 GB	~5 GB
13B-14B	~31 GB	~16 GB	~8 GB
32B	~77 GB	~38 GB	~20 GB
70B	~168 GB	~84 GB	~42 GB

（注：以上数字包含约 20% 的运行时开销）

量化到底损失多少质量？

这是很多人纠结的点。简单说：8-bit 量化几乎无损，4-bit 量化在日常使用中也很难感知到差异。

实际体验上，INT4 量化大约保留了原始模型 95-98% 的质量。除非你是做非常精细的评测或者对输出质量有极致要求的场景，否则 4-bit 量化是性价比之王。现在 GGUF 格式（llama.cpp 生态）的 Q4_K_M 量化方案已经成为社区公认的「甜点」配置，在显存节省和输出质量之间取得了很好的平衡。

更激进的量化（比如 3-bit 甚至 2-bit）也存在，但质量下降会更明显，适合对精度不敏感的简单任务。

推理场景 GPU 推荐

场景一：个人玩家跑 7B-8B 模型

这是入门级需求。7B 模型在 INT4 量化下只需要大约 5GB 显存，主流显卡都能搞定。

推荐方案：

RTX 4060 Ti 16GB（约 ¥3500）：舒适运行 7B 全精度或 13B 量化，性价比极高
RTX 4060 8GB（约 ¥2500）：能跑 7B INT4，够用但不太宽裕
Mac M 系列（16GB 统一内存）：跑 7B 模型体验不错，日常够用

实际表现：7B INT4 模型在 RTX 4060 Ti 上大概能跑 30-45 tokens/s，日常对话完全流畅。

场景二：进阶用户跑 13B-32B 模型

13B 到 32B 这个区间是目前开源模型的「甜点」——能力比 7B 明显提升，资源需求又没到天际。

推荐方案：

RTX 4090 24GB（约 ¥12000）：13B FP16 全精度无压力，32B INT4 刚好能塞下
RTX 5090 32GB（约 ¥16000）：32B 模型的最佳单卡选择，Blackwell 架构推理速度惊人
二手 RTX 3090 24GB（约 ¥5000-6000）：穷人版 4090，24GB 显存一样能用，性价比无敌

值得一提的是，RTX 5090 在最新的基准测试中表现亮眼——跑 32B 模型的推理速度甚至略超 H100，而价格只是 H100 的零头。

场景三：部署 70B+ 大模型

70B 是目前开源模型的「天花板」级别（比如 LLaMA 3 70B），能力接近 GPT-4 水平。但资源需求也到了个人设备的极限。

推荐方案：

2× RTX 4090（约 ¥24000）：70B INT4（~42GB）刚好能分到两张卡上跑，实测可行
2× RTX 5090（约 ¥32000）：更宽裕，也更快
1× A100 80GB（云服务器）：一张卡跑 70B INT4，简单粗暴
2× A100 80GB（云服务器）：70B FP16 全精度，企业级品质

如果是生产环境部署，考虑 L40S（48GB）或 A100/H100 这类数据中心级显卡。它们虽然单卡推理速度不一定比消费级显卡快，但胜在稳定性、多用户并发能力和长期运行的可靠性。

训练篇：这才是真正烧显存的地方

训练（或者说微调）比推理烧钱多了。因为除了模型权重本身，还有三样东西要吃显存：

梯度（Gradients）：和模型权重一样大，FP16 下每个参数 2 字节
优化器状态（Optimizer States）：AdamW 优化器需要存两份状态（一阶矩和二阶矩），FP32 下每个参数 8 字节
激活值（Activations）：取决于 batch size 和序列长度，可大可小

粗略估算，全参数微调的显存需求大约是纯推理的 4-6 倍。业界常用的经验法则是：FP16 全参数微调大约需要 每 10 亿参数 16GB 显存。

不同训练方式的显存对比

模型	全参数微调 (FP16)	LoRA (FP16)	QLoRA (INT4+LoRA)
7B	100-120 GB	30-40 GB	12-24 GB
13B	180-240 GB	50-70 GB	16-32 GB
32B	450-500 GB	120-160 GB	40-60 GB
70B	1000+ GB	250-350 GB	60-80 GB

可以看到，全参数微调的显存需求是非常恐怖的。一个 7B 模型全参数微调就要 100GB+，这不是普通消费者能承受的。

LoRA 和 QLoRA：穷人的救星

好在 LoRA（Low-Rank Adaptation）和 QLoRA 的出现彻底改变了游戏规则。

LoRA 的思路是：冻结原始模型的所有参数，只训练一组很小的「适配器矩阵」。这些矩阵通常只有原始参数量的 0.1%-1%，所以显存需求大幅下降。训练完成后，这些适配器可以合并回原始模型，推理时没有任何额外开销。

QLoRA 在 LoRA 的基础上更进一步：把冻结的基础模型量化到 4-bit，只有被训练的 LoRA 适配器保持高精度。这样显存需求进一步降低 50% 以上。

实际效果呢？在大多数任务上，LoRA 微调能达到全参数微调 95-99% 的效果，QLoRA 也差不太多。对于绝大多数应用场景来说，这点差距完全可以忽略。

训练场景 GPU 推荐

场景一：用 QLoRA 微调 7B 模型

这是最低门槛的训练方案，也是很多个人开发者和小团队的首选。

推荐方案：

RTX 4090 24GB（约 ¥12000）：QLoRA 微调 7B 绰绰有余，LoRA 微调 7B 也没问题
RTX 3090 24GB（约 ¥5000-6000 二手）：一样能干，就是慢一点
L40S 48GB（云服务器，约 $0.8-1.2/hr）：更宽裕的选择，batch size 可以开大一点

一个典型的 7B QLoRA 微调任务，在 RTX 4090 上大概 3-4 小时就能完成，成本非常低。

场景二：微调 13B-32B 模型

模型大了，单卡就有点吃力了。

推荐方案：

RTX 4090 24GB：QLoRA 微调 13B 可以，32B 有点紧张
A100 80GB（云服务器，约 $1.5-2.5/hr）：LoRA 微调 13B-32B 都很舒适
2× RTX 4090：QLoRA 微调 32B，需要用到模型并行

场景三：微调 70B 模型

这是重活了，至少需要一张 A100 80GB。

推荐方案：

A100 80GB：QLoRA 微调 70B 刚好能装下
2× A100 80GB 或 H100 80GB：LoRA 微调 70B，更稳更快
4× A100 80GB：全参数微调 70B 的最低配置，一般只有大公司会这么干

场景四：从零预训练

如果你是要从零开始训练一个大模型（不是微调），那就是另一个量级的故事了。预训练一个 7B 模型可能需要数百张 A100/H100 跑几周。这不是个人和小团队考虑的范畴，这里就不展开了。

主流 GPU 速查表

最后整理一张表，方便查阅：

GPU	显存	大致价格	适合跑什么
RTX 4060 Ti	16 GB	¥3,500	7B 推理，小模型量化推理
RTX 3090（二手）	24 GB	¥5,000-6,000	7B-13B 推理，7B QLoRA 微调
RTX 4090	24 GB	¥12,000	13B-32B 量化推理，7B-13B QLoRA 微调
RTX 5090	32 GB	¥16,000	32B 推理的最佳消费卡，7B LoRA 微调
L40S	48 GB	云 $0.8-1.2/hr	32B FP16 推理，13B LoRA 微调
A100 80GB	80 GB	云 $1.5-2.5/hr	70B INT4 推理，70B QLoRA 微调
H100 80GB	80 GB	云 $2.5-4.0/hr	大规模推理和训练，企业首选
H200	141 GB	云定价较贵	70B FP16 推理，超长上下文场景

（注：价格为 2025 年初的大致参考，实际价格随市场波动）

一些实用建议

如果你只是想玩玩大模型、聊聊天，一张 RTX 4060 Ti 16GB 跑 7B-8B 量化模型就足够了。Qwen、LLaMA、Mistral 这些 7B-8B 级别的模型现在质量已经相当不错。

如果你想要更好的效果但预算有限，去二手市场淘一张 RTX 3090。24GB 显存在这个价位无人能敌，13B 量化模型随便跑，7B 的 QLoRA 微调也没问题。

如果你是认真做项目，RTX 4090 或 RTX 5090 是消费级的天花板。特别是 5090，32GB 显存加上 Blackwell 架构的高效推理，在跑 32B 模型时甚至能媲美 A100。

如果你是企业用户或者跑生产环境，老老实实上 A100/H100/B100。不是因为消费卡不能用，而是因为数据中心级显卡在稳定性、散热、多卡扩展和长期运行方面都更靠谱。云服务器按需付费也是很好的选择，特别是对于不频繁的训练任务。

关于 Apple Silicon，M 系列芯片的统一内存架构有个独特优势——内存就是显存，128GB 的 MacBook Pro M4 Max 理论上可以跑 70B 量化模型。但推理速度比不过同级别的 NVIDIA GPU，适合对速度要求不高但需要本地运行大模型的场景。

最后一句话总结：显存是硬门槛，算力决定速度，量化是省钱利器。先确定你要跑什么模型、做什么任务，再对着上面的表选卡，基本不会踩坑。

跑大模型到底要多少显存？从推理到训练，一篇讲透 GPU 选择

先搞清楚一个基本公式

推理篇：跑模型其实没那么贵

推理显存速查表

量化到底损失多少质量？

推理场景 GPU 推荐

训练篇：这才是真正烧显存的地方

不同训练方式的显存对比

LoRA 和 QLoRA：穷人的救星

训练场景 GPU 推荐

主流 GPU 速查表

一些实用建议

评论

发表回复取消回复

跑大模型到底要多少显存？从推理到训练，一篇讲透 GPU 选择

先搞清楚一个基本公式

推理篇：跑模型其实没那么贵

推理显存速查表

量化到底损失多少质量？

推理场景 GPU 推荐

训练篇：这才是真正烧显存的地方

不同训练方式的显存对比

LoRA 和 QLoRA：穷人的救星

训练场景 GPU 推荐

主流 GPU 速查表

一些实用建议

评论

发表回复 取消回复

发表回复取消回复