您现在的位置: > 直销网 > 最新新闻 >自动学会工具解题,RL扩展催化奥数能力激增17%

自动学会工具解题,RL扩展催化奥数能力激增17%

来源:央广网  日期:2025/4/8 21:08:24   浏览次数:    我要收藏

自动学会工具解题,RL扩展催化奥数能力激增17%在大模型推理能力提升的探索中,工具使用一直是克服语言模型计算局限性的关键路径。不过,当今的大模型在使用工具方面还存在一些局限,比如预先确定了工具的使用模式、限制了对最优策略的探索、实现透明度不足等。

为了解决这些难题,来自上海交通大学、SII 和 GAIR 的研究团队提出了一种全新框架 ToRL(Tool-Integrated Reinforcement Learning),该方法允许模型直接从基座模型开始,通过强化学习自主探索最优工具使用策略,而非受限于预定义的工具使用模式。

实验表明,这种方法在数学推理任务上取得了显著突破:ToRL-7B 在 AIME24 上达到了 43.3% 的准确率,比不使用工具的基线 RL 模型提高了 14%,比现有的工具集成大模型提高了 17%。


图 1: ToRL 在 AIME24 等基准中的性能对比,优于基线和现有 TIR 系统

一、为什么要直接从基座模型扩展工具集成强化学习?

在传统工具集成推理(TIR)领域,研究者们长期遵循着一条看似不可撼动的铁律:必须先通过监督微调(SFT)教会模型使用工具,才能进行强化学习优化。这种 "先 SFT 再 RL" 的范式,就像给 AI 套上预设的思维枷锁,虽然能获得稳定的性能提升,却可能永远无法发现最优的工具使用策略。

正当大家沿着这条既定路线堆砌数据和算力时,该研究团队却大胆提出了一个假设:如果让模型完全自主探索工具使用方式,会怎样?他们开发的 ToRL 框架就像打开了一扇全新的大门 —— 直接从基座模型出发,单纯通过扩展强化学习让 AI 自主掌握工具使用的精髓。

实验结果令人惊喜:ToRL 不仅打破了传统 TIR 方法的性能天花板,更让模型自发涌现出三大重要能力:

像人类专家般的工具选择直觉

自我修正无效代码的元能力

动态切换计算与推理的解题智慧

这些能力完全由奖励信号驱动自然形成,没有任何人为预设的痕迹。

这不禁让人思考:ToRL 证明了大模型可能早已具备强大的工具使用能力,只是需要更开放的学习方式去释放。当主流研究还在为数据规模和算法复杂度较劲时,ToRL 用事实告诉我们:有时候,少一些人为干预,反而能收获更多意外之喜。


>> 更多相关信息:
在百度中搜索自动学会工具解题,RL扩展催化奥数能力激增17% 在好搜搜索自动学会工具解题,RL扩展催化奥数能力激增17%
在必应搜索自动学会工具解题,RL扩展催化奥数能力激增17%在搜狗搜索自动学会工具解题,RL扩展催化奥数能力激增17%
>> 关于企业公告的相关资讯
热点聚焦
推荐编辑