清华团队深度实证:RL 真能让大模型进化吗?能力边界仍被基座“锁死”!

yumo6662个月前 (05-21)技术文章15

大数据文摘出品

强化学习(RL)真的能让大模型获得超越基础模型的新推理能力吗?
近日,清华大学LeapLab团队联合上海交大,发布了一篇题为《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?》的新论文,给最近火热的RLVR(带可验证奖励的强化学习)又“泼了一盆冷水”。
论文地址:https://arxiv.org/pdf/2504.13837
论文标题翻译过来是:强化学习(RL)真的能让大模型获得推理能力上的跃迁吗?
论文结论是:RLVR提升的,其实只是采样效率,而不是让模型学会了真正全新的推理能力。
换句话说:RLVR只是把基础模型本来就会的东西,采样采得更有效率了。
这份研究直接打破了AI圈子里的“先验知识”,大家都觉得RLVR是让大模型变聪明的“加速器”,特别是在数学、代码等需要推理的任务上。
比如OpenAI的o1、DeepSeek-R1、Kimi-1.5,都是靠RLVR后处理,成绩一骑绝尘。原理很简单:先有个基础大模型→用RLVR强化一下→通过自动判分(比如答案对不对、代码测不测得过)给奖励。
理论上,它能自我提升,学到以前没见过的新解题套路。于是,这几年,大家都在说,RLVR能让大模型“自我进化”,推理能力突破天花板。
清华团队的“灵魂拷问”:RLVR,真能越过基座吗?
清华团队这篇论文,直接抛出了“灵魂三问”:
  • RLVR强化训练,究竟有没有让大模型获得“超越基座模型”的全新推理能力?
  • 模型的推理边界到底被RLVR拓宽了吗?还是只是换了一种方式采样?
  • 我们是否过于高估了RLVR的“自我进化”魔力?


对于上述三个问题,作者用pass@k作为研究方法的核心。因为传统的模型评测,大多用“平均准确率”或“单次采样成功率”来衡量模型能否解题。但作者敏锐地意识到,这种评估方式其实低估”了模型的潜力。原因是:有些难题,模型可能前几次都答错,但多采样几次,或许就能“撞”出正确答案。
于是,论文采用了pass@k这个指标:对于每道题,采样k次,只要有一次答对,就算成功。k越大,越能“榨干”模型内在的推理极限。
核心逻辑是:如果RLVR真能带来新能力,那在k再大时,它也应该比基座模型更能解出难题。
实验结果有点颠覆大家认知——
RLVR训练的模型,在k小的时候表现更好,但k大了以后,基础模型能超过它!
也就是:RLVR训练让模型更高效采样出正确答案,但没有带来全新的推理能力,能力边界始终被基座模型“锁死”。

案例1:数学推理

以AIME24数学竞赛题为例,RLVR模型一开始比基座模型高出30%的准确率,但多采样后,基座模型最终能解出更多题目,RLVR的“能力天花板”反而更低。

案例2:代码生成

在LiveCodeBench等编程基准上,RLVR模型单采样表现亮眼,但当k采样数提升到128时,基座模型解题覆盖率反超RLVR。

案例3:视觉推理

多模态视觉推理同样复现上述现象——RLVR提升了采样效率,却没让模型产生全新的多模态推理路径。

RLVR的“聪明”,其实是把基础模型会的东西,输出概率调高了,真正的新推理路径?并没有,基础模型多采样就能覆盖所有RLVR模型能做的题
甚至,RLVR还收窄了模型的探索能力——它会更集中在“能得分的套路”上,但反而失去一些“歪打正着”的能力,导致极限覆盖没基础模型广。
无论是代码生成(LiveCodeBench、HumanEval+),还是视觉推理(MathVista、MathVision),趋势都是一样:RLVR提升了单次成功率,但大采样下基础模型能覆盖更多难题。
为什么会这样?
清华的这篇论文认为有两点原因:
一是大模型的“先验”太强了。RLVR本质上是在基础模型原有输出分布里找高分的“套路”,不走新路;RL算法本身不适合探索超大动作空间(语言的组合爆炸),靠奖励信号很难跳出原有思路。
二是探索能力反而被抑制。RLVR让模型更“稳”,但也更“保守”,输出熵降低,探索新解法的能力变弱。
RLVR在大模型推理这件事上,和AlphaGo那种“纯RL自我进化”完全不是一回事。大模型的RLVR只是“采样分布微调”,不是“能力进化”。
怎么解决?
论文做了一个实验,把更强的模型的推理链条喂给小模型,小模型能真的学到新花样,推理上限突破原有格局。
所以,如果真想让模型能力更进一步,靠RLVR远远不够,得靠知识蒸馏“老师带学生”那一套。
即“让模型变聪明”的关键,或许在于“注入新知识”(如蒸馏),而不是单纯靠奖励强化。
或者探索“更强的探索范式”,比如结合RL和生成式探索、提升模型对“低概率创新路径”的容忍度等。
图源:清华大学LeapLab实验室官网


GPU算力按需租用

A100/H100 GPU算力按需租用,
秒级计费,平均节省开支30%以上!

扫码了解详情


相关文章

「前端开发」eval() 函数认知和学习以及注意事项

一、简单说明简单说几点吧:eval() 函数在 JavaScript 中是一个非常强大的函数,它可以将传入的字符串当作 JavaScript 代码进行执行。然而,需要明确的是,eval() 并不直接支...

js中eval() 方法的使用以及一些特殊的使用方式

1、eval方法只能在非严格模式中进行使用,在use strict中是不允许使用这个方法的。2、eval函数接收一个参数s,如果s不是字符串,则直接返回s。否则执行s语句。如果s语句执行结果是一个值,...

还在用Python的eval处理用户输入?你的代码可能正在“裸奔”!

凌晨3点,程序员小王被急促的电话惊醒。线上系统突然删光了所有用户订单数据——仅仅因为一段用了eval()的代码。这不是电影情节,而是某电商平台真实的安全事故。今天我们就来深挖这个潜伏在无数Python...

越聪明越会撒谎?OpenAI推理模型o3/o4-mini幻觉率翻倍,嘴还很硬

OpenAI 最新发布的推理 AI 模型 o3 和 o4-mini 在性能上又创新高,就在大家期待它能进一步提升日常工作的生产力时,许多用户却发现,它们的幻觉率却比前代模型要高了不少。据 OpenAI...

GPT-4o医学知识覆盖率仅55%?大模型医疗能力“体检报告”来了

MedKGEval团队 投稿量子位 | 公众号 QbitAI医疗大模型知识覆盖度首次被精准量化!在医疗领域,大语言模型(LLM)的潜力令人振奋,但其知识储备是否足够可靠?腾讯优图实验室天衍研究中心的最...

上科大校友研发小推理模型,证明低秩自适应技术强大能力

“我们这篇论文可能是目前唯一一篇在推理模型能力上详细告诉大家到底花了多少钱的论文。”上海科技大学 95 后本科校友、美国南加州大学博士生王上上告诉 DeepTech。近日,他和所在团队打造出一系列名为...