跑大模型到底要多少显存?从推理到训练,一篇讲透 GPU 选择

说实话,每次有人问我「我想跑个大模型,买什么显卡好」,我都得先反问三个问题:你要跑多大的模型?是推理还是训练?你能接受量化吗?

因为这三个变量一变,显存需求可以差出十倍。一个 70B 的模型,全精度推理要 140GB 显存,但 4-bit 量化以后只要 35GB——前者得上两张 A100,后者一张 RTX 5090 就搞定。训练就更夸张了,同样是 7B 模型,全参数微调要 100GB+,但用 QLoRA 的话 24GB 就够。


先搞清楚一个基本公式

显存占用的核心其实很简单:参数量 × 每个参数占的字节数

不同精度下,每个参数占用的空间不一样:

  • FP32(32位浮点):4 字节/参数
  • FP16 / BF16(16位半精度):2 字节/参数
  • INT8(8位整数):1 字节/参数
  • INT4(4位整数):0.5 字节/参数

拿一个 7B(70亿参数)的模型来说,光模型权重就占这么多:

精度7B13B32B70B
FP3228 GB52 GB128 GB280 GB
FP1614 GB26 GB64 GB140 GB
INT87 GB13 GB32 GB70 GB
INT43.5 GB6.5 GB16 GB35 GB

但这只是模型权重本身。实际跑起来还有额外开销——推理时有 KV Cache(注意力缓存)和运行时开销,通常要加 20% 左右。训练就更多了,梯度、优化器状态、激活值这些加起来,显存需求会翻好几倍。


推理篇:跑模型其实没那么贵

推理是大多数人的需求——就是把一个训练好的模型加载进来,让它生成回答。这是显存需求最低的场景。

推理显存速查表

下面这张表假设使用 vLLM 或 llama.cpp 这类推理引擎,上下文长度 2K-4K tokens,单用户或小批量使用:

模型大小FP16 推理INT8 推理INT4 推理
3B-4B~8 GB~4 GB~2.5 GB
7B-8B~17 GB~9 GB~5 GB
13B-14B~31 GB~16 GB~8 GB
32B~77 GB~38 GB~20 GB
70B~168 GB~84 GB~42 GB

(注:以上数字包含约 20% 的运行时开销)

量化到底损失多少质量?

这是很多人纠结的点。简单说:8-bit 量化几乎无损,4-bit 量化在日常使用中也很难感知到差异

实际体验上,INT4 量化大约保留了原始模型 95-98% 的质量。除非你是做非常精细的评测或者对输出质量有极致要求的场景,否则 4-bit 量化是性价比之王。现在 GGUF 格式(llama.cpp 生态)的 Q4_K_M 量化方案已经成为社区公认的「甜点」配置,在显存节省和输出质量之间取得了很好的平衡。

更激进的量化(比如 3-bit 甚至 2-bit)也存在,但质量下降会更明显,适合对精度不敏感的简单任务。

推理场景 GPU 推荐

场景一:个人玩家跑 7B-8B 模型

这是入门级需求。7B 模型在 INT4 量化下只需要大约 5GB 显存,主流显卡都能搞定。

推荐方案:

  • RTX 4060 Ti 16GB(约 ¥3500):舒适运行 7B 全精度或 13B 量化,性价比极高
  • RTX 4060 8GB(约 ¥2500):能跑 7B INT4,够用但不太宽裕
  • Mac M 系列(16GB 统一内存):跑 7B 模型体验不错,日常够用

实际表现:7B INT4 模型在 RTX 4060 Ti 上大概能跑 30-45 tokens/s,日常对话完全流畅。

场景二:进阶用户跑 13B-32B 模型

13B 到 32B 这个区间是目前开源模型的「甜点」——能力比 7B 明显提升,资源需求又没到天际。

推荐方案:

  • RTX 4090 24GB(约 ¥12000):13B FP16 全精度无压力,32B INT4 刚好能塞下
  • RTX 5090 32GB(约 ¥16000):32B 模型的最佳单卡选择,Blackwell 架构推理速度惊人
  • 二手 RTX 3090 24GB(约 ¥5000-6000):穷人版 4090,24GB 显存一样能用,性价比无敌

值得一提的是,RTX 5090 在最新的基准测试中表现亮眼——跑 32B 模型的推理速度甚至略超 H100,而价格只是 H100 的零头。

场景三:部署 70B+ 大模型

70B 是目前开源模型的「天花板」级别(比如 LLaMA 3 70B),能力接近 GPT-4 水平。但资源需求也到了个人设备的极限。

推荐方案:

  • 2× RTX 4090(约 ¥24000):70B INT4(~42GB)刚好能分到两张卡上跑,实测可行
  • 2× RTX 5090(约 ¥32000):更宽裕,也更快
  • 1× A100 80GB(云服务器):一张卡跑 70B INT4,简单粗暴
  • 2× A100 80GB(云服务器):70B FP16 全精度,企业级品质

如果是生产环境部署,考虑 L40S(48GB)或 A100/H100 这类数据中心级显卡。它们虽然单卡推理速度不一定比消费级显卡快,但胜在稳定性、多用户并发能力和长期运行的可靠性。


训练篇:这才是真正烧显存的地方

训练(或者说微调)比推理烧钱多了。因为除了模型权重本身,还有三样东西要吃显存:

  1. 梯度(Gradients):和模型权重一样大,FP16 下每个参数 2 字节
  2. 优化器状态(Optimizer States):AdamW 优化器需要存两份状态(一阶矩和二阶矩),FP32 下每个参数 8 字节
  3. 激活值(Activations):取决于 batch size 和序列长度,可大可小

粗略估算,全参数微调的显存需求大约是纯推理的 4-6 倍。业界常用的经验法则是:FP16 全参数微调大约需要 每 10 亿参数 16GB 显存

不同训练方式的显存对比

模型全参数微调 (FP16)LoRA (FP16)QLoRA (INT4+LoRA)
7B100-120 GB30-40 GB12-24 GB
13B180-240 GB50-70 GB16-32 GB
32B450-500 GB120-160 GB40-60 GB
70B1000+ GB250-350 GB60-80 GB

可以看到,全参数微调的显存需求是非常恐怖的。一个 7B 模型全参数微调就要 100GB+,这不是普通消费者能承受的。

LoRA 和 QLoRA:穷人的救星

好在 LoRA(Low-Rank Adaptation)和 QLoRA 的出现彻底改变了游戏规则。

LoRA 的思路是:冻结原始模型的所有参数,只训练一组很小的「适配器矩阵」。这些矩阵通常只有原始参数量的 0.1%-1%,所以显存需求大幅下降。训练完成后,这些适配器可以合并回原始模型,推理时没有任何额外开销。

QLoRA 在 LoRA 的基础上更进一步:把冻结的基础模型量化到 4-bit,只有被训练的 LoRA 适配器保持高精度。这样显存需求进一步降低 50% 以上。

实际效果呢?在大多数任务上,LoRA 微调能达到全参数微调 95-99% 的效果,QLoRA 也差不太多。对于绝大多数应用场景来说,这点差距完全可以忽略。

训练场景 GPU 推荐

场景一:用 QLoRA 微调 7B 模型

这是最低门槛的训练方案,也是很多个人开发者和小团队的首选。

推荐方案:

  • RTX 4090 24GB(约 ¥12000):QLoRA 微调 7B 绰绰有余,LoRA 微调 7B 也没问题
  • RTX 3090 24GB(约 ¥5000-6000 二手):一样能干,就是慢一点
  • L40S 48GB(云服务器,约 $0.8-1.2/hr):更宽裕的选择,batch size 可以开大一点

一个典型的 7B QLoRA 微调任务,在 RTX 4090 上大概 3-4 小时就能完成,成本非常低。

场景二:微调 13B-32B 模型

模型大了,单卡就有点吃力了。

推荐方案:

  • RTX 4090 24GB:QLoRA 微调 13B 可以,32B 有点紧张
  • A100 80GB(云服务器,约 $1.5-2.5/hr):LoRA 微调 13B-32B 都很舒适
  • 2× RTX 4090:QLoRA 微调 32B,需要用到模型并行

场景三:微调 70B 模型

这是重活了,至少需要一张 A100 80GB。

推荐方案:

  • A100 80GB:QLoRA 微调 70B 刚好能装下
  • 2× A100 80GB 或 H100 80GB:LoRA 微调 70B,更稳更快
  • 4× A100 80GB:全参数微调 70B 的最低配置,一般只有大公司会这么干

场景四:从零预训练

如果你是要从零开始训练一个大模型(不是微调),那就是另一个量级的故事了。预训练一个 7B 模型可能需要数百张 A100/H100 跑几周。这不是个人和小团队考虑的范畴,这里就不展开了。


主流 GPU 速查表

最后整理一张表,方便查阅:

GPU显存大致价格适合跑什么
RTX 4060 Ti16 GB¥3,5007B 推理,小模型量化推理
RTX 3090(二手)24 GB¥5,000-6,0007B-13B 推理,7B QLoRA 微调
RTX 409024 GB¥12,00013B-32B 量化推理,7B-13B QLoRA 微调
RTX 509032 GB¥16,00032B 推理的最佳消费卡,7B LoRA 微调
L40S48 GB云 $0.8-1.2/hr32B FP16 推理,13B LoRA 微调
A100 80GB80 GB云 $1.5-2.5/hr70B INT4 推理,70B QLoRA 微调
H100 80GB80 GB云 $2.5-4.0/hr大规模推理和训练,企业首选
H200141 GB云定价较贵70B FP16 推理,超长上下文场景

(注:价格为 2025 年初的大致参考,实际价格随市场波动)


一些实用建议

如果你只是想玩玩大模型、聊聊天,一张 RTX 4060 Ti 16GB 跑 7B-8B 量化模型就足够了。Qwen、LLaMA、Mistral 这些 7B-8B 级别的模型现在质量已经相当不错。

如果你想要更好的效果但预算有限,去二手市场淘一张 RTX 3090。24GB 显存在这个价位无人能敌,13B 量化模型随便跑,7B 的 QLoRA 微调也没问题。

如果你是认真做项目,RTX 4090 或 RTX 5090 是消费级的天花板。特别是 5090,32GB 显存加上 Blackwell 架构的高效推理,在跑 32B 模型时甚至能媲美 A100。

如果你是企业用户或者跑生产环境,老老实实上 A100/H100/B100。不是因为消费卡不能用,而是因为数据中心级显卡在稳定性、散热、多卡扩展和长期运行方面都更靠谱。云服务器按需付费也是很好的选择,特别是对于不频繁的训练任务。

关于 Apple Silicon,M 系列芯片的统一内存架构有个独特优势——内存就是显存,128GB 的 MacBook Pro M4 Max 理论上可以跑 70B 量化模型。但推理速度比不过同级别的 NVIDIA GPU,适合对速度要求不高但需要本地运行大模型的场景。

最后一句话总结:显存是硬门槛,算力决定速度,量化是省钱利器。先确定你要跑什么模型、做什么任务,再对着上面的表选卡,基本不会踩坑。


发布于

分类

作者

标签:

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注