当 LLM 学会「想一想」——强化学习如何催生推理模型，我们真的可以依靠它通向 AGI 吗

2024 年底，OpenAI 发布了 o1。那个模型跟以前的 ChatGPT 不太一样——它不再是收到问题就立刻吐答案，而是会在回答之前「想一会儿」。屏幕上你能看到一段折叠起来的思考过程，里面有推导、有验证、有自我纠正。这是推理模型（Reasoning Model）第一次以产品的形态走到大众面前。

几个月后，2025 年 1 月，DeepSeek 发布了 R1。这篇论文像一颗炸弹一样丢进了整个 AI 社区——它不仅开源了模型权重，更重要的是，它把「如何用强化学习让 LLM 学会推理」这件事的技术细节完整地写了出来。后来这篇论文甚至被 Nature 正式发表。

从那之后，强化学习与推理模型的交汇，就成了 LLM 领域最火热的研究方向。

先回顾一下：一个 LLM 是怎么炼成的

在聊强化学习之前，得先理清 LLM 的整个训练流程。传统的 LLM 训练大致分三步：

第一步：预训练（Pre-training）。 用海量的互联网文本，让模型学会预测下一个 token。这一步耗资巨大，动辄几千张 GPU 跑几个月，目的是让模型建立起对语言的基础理解——语法、常识、世界知识，全都压缩在权重里。

第二步：监督微调（SFT）。 预训练出来的模型只会「续写」，你问它问题，它可能会接着你的句子继续写下去，而不是给你一个回答。SFT 就是拿一批精心标注的问答对来教它「怎么好好回答问题」。这一步计算量不大，但对数据质量要求很高。

第三步：人类反馈强化学习（RLHF）。 SFT 之后的模型已经能回答问题了，但回答的好坏参差不齐。RLHF 的做法是先训一个「奖励模型」来模拟人类的偏好判断，然后用 PPO（Proximal Policy Optimization）算法，根据这个奖励信号去优化 LLM 的输出。这一步让模型的回答变得更符合人类期望——更有帮助、更安全、更像一个好的助手。

这三步走了好几年，从 InstructGPT（gpt 3.5模型）到 ChatGPT 一路迭代。但 RLHF 有个根本性的瓶颈：它依赖人类标注的偏好数据。标注者的能力天花板，就是模型的能力天花板。你没法用这种方法教一个模型解出连标注者自己都解不出的数学题。

推理模型的出现，改变了这个局面。

从 RLHF 到 RLVR：奖励信号的革命

推理模型训练的核心突破，在于奖励信号的来源发生了根本性转变。

传统的 RLHF 依赖一个用人类偏好数据训出来的奖励模型，这个模型本质上是一个「猜测」——猜人类会觉得哪个回答更好。猜得越准，对齐就越好；但猜这件事本身就有上限，且容易被「钻空子」（reward hacking）。

RLVR 的全称是 Reinforcement Learning with Verifiable Rewards，翻译过来就是「基于可验证奖励的强化学习」。它的核心思路极其朴素：如果一道数学题有标准答案，那我就不需要什么奖励模型了——直接看你算的对不对就行。答案对了给奖励，答案错了不给。

对于数学题，验证器可以是一个简单的字符串匹配；对于代码题，验证器就是编译器和测试用例——代码跑过了就是对的，跑不过就是错的。不需要人类参与，不需要训练额外的奖励模型，反馈信号百分之百客观准确。

这个转变听起来简单，但它带来的影响是深远的。正如 Andrej Karpathy 在 2025 年度回顾中所说的那样——RLVR 的训练可以比 SFT 和 RLHF 跑得长得多，因为它的奖励函数是客观的、不可被游戏化的。这就意味着你可以往里灌更多的计算量，而模型会持续变好。2025 年 LLM 能力进步的主要来源，就是各大实验室在消化这个新阶段带来的巨大「计算过剩」（compute overhang）。

GRPO：让强化学习变得更简单

说到具体的算法，就不得不提 GRPO——Group Relative Policy Optimization，组相对策略优化。它最早在 DeepSeek 的 DeepSeekMath 论文中提出，后来成为 DeepSeek-R1 的核心训练算法。

要理解 GRPO，先得知道它要解决什么问题。

传统的 PPO 算法在训练 LLM 时需要同时维护四个模型：策略模型（就是你要训练的 LLM）、参考模型（用来计算 KL 散度防止偏离太远）、奖励模型（评估回答质量）、以及价值模型/评论家（Critic，用来估算未来奖励的期望值）。四个大型语言模型同时在 GPU 上跑，显存开销巨大。

GRPO 的核心创新是：把评论家（Critic）模型干掉了。

它是怎么做到的呢？对于每一个输入问题，GRPO 不是只让模型生成一个回答，而是生成一组回答（比如 4 到 16 个）。然后用奖励函数（在 RLVR 场景下就是验证器）给每个回答打分。接着，用这一组回答的平均分作为基线，计算每个回答相对于基线的优势值——比平均好的就是正优势，比平均差的就是负优势。

这就是「组相对」的含义：不需要一个额外的模型去估算「未来的期望奖励是多少」，只需要在同一组回答里互相比较就行。

计算量直接砍了将近一半——从需要同时跑四个 LLM 降到了两个（策略模型和参考模型）。而当 DeepSeek 在 R1-Zero 中进一步用基于规则的验证器替代了神经网络奖励模型后，系统中需要的大模型就更少了。DeepSeek-R1-Zero 甚至只用正则表达式和字符串匹配来做奖励判定——简单到令人难以置信。

当然，GRPO 并不完美。后续的研究发现，原版的 GRPO 在大规模训练中会出现训练不稳定、回答长度膨胀、模型多样性崩塌（entropy collapse）等问题。为此社区提出了不少改进方案，比如 DAPO、Dr. GRPO、GRPO++ 等等。但 GRPO 的核心设计理念——通过组内比较来简化优势估计——已经成为这个领域的标准范式。

DeepSeek-R1-Zero：纯 RL 训出来的推理模型

DeepSeek-R1 论文中最让人兴奋的部分，或许是 R1-Zero 的实验。

R1-Zero 的做法非常激进：直接拿 DeepSeek-V3 的预训练基座模型，完全跳过监督微调（SFT），直接上 GRPO 做强化学习。奖励信号只有两种——答案正确性（对数学题的标准答案做匹配）和格式正确性（是否按要求在 <think> 和 <answer> 标签内输出思考过程和最终答案）。

就这么简单的两个信号，经过数千步 RL 训练后，模型在 AIME 2024（美国数学邀请赛）上的准确率从 15.6% 飙升到了 71%。如果加上多数投票（majority voting），准确率更是达到了 86.7%。

更让人着迷的是训练过程中出现的「涌现」行为。随着训练的推进，模型自发地学会了几件事：生成越来越长的思维链，用更多的 token 来思考；在解题过程中停下来检查自己的步骤；如果发现某条路走不通，会主动尝试另一种方法。这些行为并不是任何人教它的——没有任何监督数据告诉它「你应该回头检查一下」，它完全是通过 RL 的试错过程自己学到的。

DeepSeek 团队在论文中记录了一个特别有意思的现象，他们称之为「Aha Moment」。在训练的某个中间阶段，模型在解题时突然冒出了这样的文字：「Wait, wait. Wait. That’s an aha moment I can flag here.」——它学会了用一种拟人化的语气来重新审视自己的思路。这个时刻不仅是模型的顿悟时刻，也让研究者们兴奋不已。

不过也有学者泼了冷水。Sea AI Lab 的一项研究仔细检查了 R1-Zero 式训练的过程，发现所谓的「Aha Moment」可能并不是 RL 训练造就的——许多基座模型（包括 Qwen-2.5 系列甚至 DeepSeek-V3-Base 本身）在未经任何 RL 训练时就已经表现出类似自我反思的行为模式。RL 可能并没有「教会」模型思考，而是「放大」了它在预训练阶段就已经习得的推理能力，让那些原本低概率的正确推理路径变成了高概率路径。

这是 2025 年一个持续争论的话题：RLVR 到底是「创造」了新的推理能力，还是只是「重新分配」了已有能力的概率分布？学术界对此尚无定论，但两种观点可能都有道理——RL 确实能在训练早期就开始激励正确的推理链，而基座模型的预训练质量则决定了推理的上限。

完整的 R1 训练流程

R1-Zero 证明了纯 RL 的可行性，但它也暴露了一些问题：输出可读性差、经常中英文混杂、在非推理任务上表现平平。所以完整版的 DeepSeek-R1 采用了一套多阶段训练流程：

阶段一：冷启动数据 + SFT。 先收集几千条高质量的长链推理数据（chain-of-thought），对 DeepSeek-V3 做监督微调。这些数据为模型建立了一个「怎么好好思考」的初始模板——比如让它学会在长思考过程之后先做一个总结再给出最终答案。这就像是给 RL 训练种下一颗好种子。

阶段二：大规模 RL 训练。 在冷启动 SFT 之后，用 GRPO 做大规模强化学习，跟 R1-Zero 用的是同一套 RL 训练框架。这一步是真正提升推理能力的关键。

阶段三：拒绝采样 + 再次 SFT。 用经过 RL 训练后的模型在大量问题上生成回答，筛选出正确的高质量回答，再用这些数据做一次 SFT。这个阶段不仅提升了推理任务的表现，也改善了写作、问答等通用任务的能力。

阶段四：第二轮 RL。 最后再做一轮 RL，这次除了可验证奖励之外，还引入了一个传统的奖励模型来处理那些没有标准答案的开放式任务（比如写作），目的是让模型在保持推理能力的同时，也能在日常对话中表现得更好。

这套流程的核心逻辑是在 SFT 和 RL 之间反复交替——SFT 提供稳定的起点和格式规范，RL 则负责探索和突破能力边界。

蒸馏：让小模型也会推理

DeepSeek-R1 还做了一件很有影响力的事：把大模型的推理能力「蒸馏」到小模型里。

具体做法是让训好的 R1 大模型在大量问题上生成回答，然后用这些回答作为训练数据，对小模型（从 1.5B 到 70B 不等）做监督微调。这是一种最简单的离线蒸馏方式。

结果相当惊人：蒸馏得到的 7B 小模型在 AIME 2024 上达到了 55.5% 的准确率，32B 版本更是接近了 OpenAI o1-mini 的水平。更重要的是，DeepSeek 发现蒸馏的效果远好于直接对小模型做 RL 训练——小模型的基座太弱，自己通过 RL 探索很难找到正确的推理路径。但如果有一个强大的「老师」模型提供示范，小模型就能高效地学到推理的「样子」。

这个发现对整个社区的影响巨大：它意味着你不一定需要自己跑天价的 RL 训练，只需要有一个足够好的推理模型来生成训练数据，就能通过蒸馏让自己的小模型具备不错的推理能力。

RLVR 的边界在哪里？

RLVR 最初在数学和代码这两个领域大获成功，原因很直观——这两类任务天然有客观的验证标准。但一个自然的问题是：它还能用在别的地方吗？

2025 年的研究给出了乐观的回答。Med-RLVR 把 RLVR 扩展到了医学推理领域，用多选题的正确答案作为可验证奖励，结果不仅匹配了 SFT 的性能，还在分布外数据上获得了约 8 个百分点的准确率提升。更有趣的是，研究者观察到在 RLVR 训练过程中，模型自发地发展出了分步骤的临床推理能力——没有任何人给它看过「正确的推理过程应该是什么样」。

其他研究者也在尝试将 RLVR 推广到化学、心理学、经济学等更多领域。对于那些没有严格标准答案的任务，他们引入了基于 LLM 的软评分机制来提供可验证的奖励信号。这种混合方法虽然不如规则型验证器那么纯粹，但在实践中已经展现出不错的泛化能力。

不过，RLVR 的局限性也很明显。对于那些本质上没有「对错」之分的任务——比如开放式写作、创意生成、价值判断——构建可靠的验证器仍然是一个开放问题。这也是为什么 DeepSeek-R1 的完整训练流程中仍然保留了传统奖励模型作为补充。

当前方法的缺陷：天花板在哪里？

RLVR + GRPO 的组合在 2025 年取得了惊人的成果，但随着越来越多的研究者深入挖掘，这套范式的局限性也逐渐浮出水面。

第一个，也是最根本的问题：RLVR 可能并没有创造新的推理能力。

清华大学的一项被 NeurIPS 2025 接收的研究系统地分析了 RLVR 训练前后模型的表现，发现了一个令人不安的现象：如果用 pass@k 指标来评估（即让模型尝试 k 次，只要有一次答对就算成功），基座模型在 k 较大时反而比 RL 训练后的模型表现更好。换句话说，基座模型能解出的题目集合，实际上比 RL 模型能解出的更大。

这意味着什么？RLVR 本质上做的事情，更像是「把模型已有的能力集中起来」——让它在第一次尝试时就更可能给出正确答案（提高 pass@1），但代价是牺牲了探索的广度。它把概率分布从「分散但覆盖面广」变成了「集中但覆盖面窄」。用论文的话说：RL 提升了采样效率，但收窄了推理能力的边界。

这跟传统 RL 在围棋、Atari 中的表现截然不同。在那些领域，RL 能发现人类从未想到的策略。但在语言空间中，动作空间实在太大了——每一步都有几万个 token 可以选择，要靠随机探索发现全新的推理路径，几乎是不可能的。如果基座模型从来没采样出过某个问题的正确解，RL 就收不到任何正向奖励信号，自然也就学不到任何东西。

第二个问题：奖励信号太稀疏。

当前的 RLVR 只在最终答案处给反馈——对或错，0 或 1。模型生成了几千个 token 的思考过程，但只有最后那个答案决定了这次尝试是否获得奖励。这就像你让一个学生做一道复杂的证明题，做完后只告诉他「对了」或「错了」，但不告诉他哪一步出了问题。

对于简单问题，这还好——模型碰巧能在几次尝试中找到正确答案。但当问题的复杂度上升，模型可能做了几百次甚至几千次 rollout 都得不到一个正确答案，训练就陷入了零梯度信号的困境。而且更糟的是，模型从它所有的失败尝试中什么都学不到——也许某次尝试的前 80% 步骤都是对的，只是最后一步算错了，但 0/1 奖励无法区分这种情况。

第三个问题：推理效率的恶化。

只接受结果奖励的模型，会倾向于生成越来越长的思维链。这在某种程度上是好事——更多的思考通常意味着更高的准确率。但模型并不总是在「有效思考」——它经常会在思维链中绕圈子，重复验证已经确认的步骤，或者在错误的方向上越走越远。有研究发现，RL 训练后模型在错误回答上的长度膨胀尤为严重。

这直接导致了推理成本的飙升。一个标准的非推理请求可能只需要生成几百个 token，但推理模型动辄产生几千甚至上万个 token 的内部思考，时间和算力消耗呈数量级增长。

第四个问题：验证器的瓶颈。

RLVR 的「可验证」这三个字，本身就划定了它的适用范围。数学有标准答案，代码有测试用例，这些领域的验证器几乎是免费的。但对于更多的现实任务——写一篇好文章、做一个合理的商业决策、给出一个恰当的情感回应——我们根本没有可靠的自动验证手段。目前 RLVR 的 Scaling Law 还是未知的，我们甚至不知道在数学和代码领域继续加大计算投入，回报何时会耗尽。

通往更强模型的路

认识到这些局限之后，研究者们正在从多个方向探索突破口。

方向一：过程奖励模型（Process Reward Model, PRM）——给中间步骤打分。

既然只看最终答案太粗糙，那能不能在推理过程的每一步都给反馈？这就是过程奖励模型的思路。PRM 不只评判最终答案的对错，而是评估思维链中每个中间步骤的质量——这一步推导是否合理？是否存在逻辑跳跃？

DeepSeek 自己也尝试过 PRM，但在他们的大规模实验中，PRM 相比纯结果奖励并没有带来显著优势——额外的计算开销不值得那点边际提升。不过，有研究者指出这个结论在数学领域成立，是因为数学的预训练知识已经很强，结果信号足够密集。在模型先验知识较弱的领域（比如医学、科学推理），中间步骤的监督可能真的很关键。

2025 年出现的一些新工作——比如 GenPRM、ThinkPRM——尝试让 LLM 自己作为 PRM 的评判者，通过生成式推理来判断每一步是否正确，而不是训练一个独立的分类器。这个方向仍在早期，但前景值得期待。

方向二：推理时计算扩展（Test-Time Compute Scaling）——在推理阶段投入更多算力。

训练时的计算投入有上限，但推理时的计算投入理论上可以无限扩展。这就是推理时扩展（Test-Time Scaling）的核心思路：与其训一个更大的模型，不如让现有模型在回答时花更多时间「想」。

具体的技术手段包括：自洽性（self-consistency，采样多次取多数票）、自我修正（self-refinement，让模型检查并修改自己的回答）、树搜索（像 AlphaGo 那样在推理空间中做蒙特卡洛搜索）等。DeepSeekMath-V2 的最新实验表明，把自洽性和自我修正结合起来，可以在不重新训练模型的情况下把性能推到数学竞赛金牌水平。

Sebastian Raschka 预测 2026 年的 LLM 进步将更多来自推理时扩展而非训练本身。模型可能不会变得更大太多，但回答质量会因为更聪明的推理时策略而持续提升。

方向三：课程学习（Curriculum Learning）——从易到难地训练。

当前 RLVR 的一个问题是所有问题混在一起训练。如果能先让模型在简单题上把基础推理技能练扎实，再逐步过渡到更难的问题，就有可能降低探索难度——先在小问题上建立「元技能」，再把这些技能迁移到复杂问题上。这种方法在传统 RL 中已经被广泛验证，但在 LLM 的 RLVR 训练中还处于非常早期的探索阶段。

方向四：更好的预训练。

这一点听起来「没什么新意」，但可能是最重要的。前面说过，RLVR 的能力天花板很大程度上取决于基座模型在预训练阶段学到了什么。如果基座模型在预训练时就已经接触过高质量的推理数据——数学证明、代码推导、逻辑分析——那 RL 就有更好的起点来放大这些能力。反过来，如果基座的推理「先验」太弱，再怎么做 RL 都事倍功半。

所以一个看起来朴素但极为关键的方向是：提升预训练数据中推理相关内容的比例和质量。这也是为什么 DeepSeek-V3 的基座如此重要——它的预训练质量直接决定了 R1 能达到的高度。

方向五：工具使用与环境交互。

当前的推理模型是在「纯文本空间」里思考的——所有的计算、验证、搜索都只能通过生成 token 来完成。但如果模型在推理过程中可以调用计算器来验算、调用搜索引擎来查证事实、调用代码解释器来测试假设呢？

让推理模型在思考过程中使用工具，本质上是把「内部思考」和「外部验证」融合在一起。这不仅能提升推理的准确性，还能天然地提供中间步骤的反馈信号——如果某一步调用计算器得到的结果和模型的推导不一致，这本身就是一个很强的纠正信号。2025 年的 Coding Agent（比如 Claude Code）已经在实践中展示了这种「推理 + 工具」的强大威力，这个范式在未来只会变得更加重要。

方向六：自我博弈与自我训练（Self-Play & Self-Training）。

要走向超越人类能力的模型，最终必须摆脱对人类标注数据的依赖。自我博弈和自我训练是一条充满诱惑但又充满陷阱的路——让模型自己出题、自己做题、自己判分、自己进步。

已经有研究者在探索让 LLM 用多数投票（majority voting）来替代人类验证器的方案：如果模型采样多次后绝大多数回答都一致，那这个一致的答案大概率是对的，可以用作 RL 的奖励信号。但实验也发现，长时间的自我训练容易导致 reward hacking 和模型崩塌——模型学会了「讨好」自己的判断标准，而不是真正变得更强。

如何让自我进化的循环保持稳定而不退化，是通向真正自主智能的一道关键门槛。

写在最后

回过头来看，强化学习驱动的推理模型之所以在 2025 年成为研究焦点，不是因为 RL 本身有什么新东西——PPO 是 2017 年的算法，策略梯度方法更是几十年前就有了。真正的突破在于人们找到了一种把 RL 和 LLM 结合起来的正确姿势：用可验证的奖励信号替代主观的人类偏好，用更简洁的算法（GRPO）降低计算成本，让模型通过自我探索去发展推理能力。

这条路还在延伸。未来我们可能会看到 RLVR 被集成到预训练阶段，看到更复杂的过程奖励模型（Process Reward Model）被用来评判中间推理步骤，看到推理模型被应用到更多需要严谨思考的场景中。

但最让我感到兴奋的，还是那个最朴素的发现：你不需要手把手教一个模型「怎么思考」——你只需要告诉它答案对不对，给它足够的时间去试错，它就能自己学会。

当然，正如我们在上面讨论的，这种「自己学会」有它明确的天花板。RLVR 能把基座模型的潜力挤压出来，但它不太可能凭空创造出基座不具备的能力。要想继续往上走，我们需要更好的预训练、更细致的奖励信号、更聪明的推理时策略，以及让模型学会借助外部工具来拓展自己思考边界的能力。

这条路还长，但方向已经越来越清晰了。而这件事本身，就已经足够让人着迷了。