当人工智能模型仍以“刷题+打分”为主流训练模式时,一支来自上海人工智能实验室、澳门大学、南京大学与香港中文大学的研究团队提出:训练不仅是做题,更要复盘、温习、内化。
他们近期发布了题为《ExGRPO: Learning to Reason from Experience》的论文,首次系统性地呈现出“经验管理”如何在大模型推理训练中发挥关键作用。
与传统的在线策略RLVR(基于可验证奖励的强化学习)方法相比,ExGRPO在攻克复杂推理难题的能力方面有显著提升。
下面,就让我们一窥 ExGRPO 框架背后的逻辑、优势与启示。
为什么是“经验驱动”
过去数年里,为了提升大型语言模型在数学推理、逻辑推理、复杂任务求解等方向的能力,研究领域普遍采用基于可验证奖励的强化学习(RLVR)方法。
但是,在 RLVR 模型训练中,模型生成一个推理轨迹(roll-out),参与训练、获得奖励后即被舍弃。
一方面,生成的轨迹往往代价昂贵。另一方面,这些“有用的轨迹”却被一次性使用,随后被丢弃——好比学生每做一道题后不复盘、不归档。
简而言之,传统训练流程存在三大痛点:
经验浪费—— 成功的推理轨迹往往被遗忘
效率低下—— 刷题而不复习,推动能力提升缓慢
训练不稳定—— 模型可能走入“做题却不理解”的状态
也就是说:当“谁的数据更多”“谁训练更久”逐渐成为瓶颈时,如何系统化地让模型复盘、复用“关键经验”便可能成为突破点。
该研究正是在这个背景下提出:并非所有经验都值得温习,关键在于「什么样的经验」以及怎样的复习方式。
经验管理+混合策略优化
论文提出的 ExGRPO(Experiential Group Relative Policy Optimization)是一个用于推理训练的大模型经验管理与策略优化框架。
其核心在于两个维度:
经验管理:即识别、存储、筛选优质经验
混合经验优化:将精选经验与新题探索结合起来训练
在 ExGRPO 中,其经验管理由三步构成:
经验收集:每次模型成功完成一道题目后,其轨迹被加入经验回放池,有点类似错题本
经验划分与存储:根据模型的近期表现,每条经验被动态贴上“简单”“中等”“困难”标签。与此同时,若模型在某道题上已连续多次成功,则将该题移出,避免模型在已掌握题目上刷题停滞
经验筛选:根据“题目筛选”+“轨迹筛选“两项先验指标精选经验
接下来,ExGRPO 采用了“混合策略”的训练目标。在每轮训练中,一部分 minibatch 用于探索全新的问题。另一部分用于从经验池中抽取精选轨迹,反复学习。
此外,还引入“策略塑形”(Policy Shaping)机制,避免模型因为过度复习而变得保守、失去探索能力。
实验结果和行业启示
在 1.5B-8B 参数规模、不同模型架构(如 Qwen、Llama)上,ExGRPO 相比传统 On-policy RL 方法平均提升约 +3.5(分布内任务)至 +7.6(分布外任务)个百分点。
不仅如此,整体训练的稳定性与效率也有所提升。
同时,ExGRPO 也面临三大挑战。
第一,在更大规模、更多任务类型的场景下,经验识别是否依然精确?
第二,建立、维护经验池、划分分区、筛选轨迹,都需要额外计算资源与工程支持,管理成本堪忧。
第三,论文主要在数学与通用推理基准上测试。未来在语言生成、对话、跨模态任务中,这一经验复用机制能否同样奏效仍待观察。
但对模型训练体系而言,ExGRPO 提供了一个可借鉴的“错题本式”思路:不仅做题,更复盘;不仅刷题,更优化经验。
对开发者而言,可以考虑在实际模型训练中引入类似经验筛选机制——将模型成功轨迹归档、标注、复用,而不是简单丢弃。
对产业应用而言,当模型需要长期服务、持续学习、快速迭代时,经验机制尤为关键。它意味着模型不仅“会做”,还知道怎么做得更好。
对未来研究而言,经验分区、轨迹筛选、复用机制是一个值得深入的方向。未来还有可能与自动化经验选择、元学习、持续在线学习等方向融合。
参考资料:https://arxiv.org/pdf/2510.02245
【免责声明】本站所刊内容仅代表作者本人观点,与机器人网站无关。机器人网站对文中陈述、观点判断保持中立。本网转载自其它媒体的信息,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如有侵权,请联系我们删除。
本文地址:http://www.jiqiren.org.cn/tt/1179.html
