ExGRPO 框架：经验驱动学习，引领推理新范式-机器人产业网

导读：当人工智能模型仍以“刷题+打分”为主流训练模式时，一支来自上海人工智能实验室、澳门大学、南京大学与香港中文大学的研究团队提出：训练不仅是做题，更要复盘、温习、内化。他们近期发布了题为《ExGRPO: Learning to Reason from Experience》的论文，首次系统性地呈现出“经...

当人工智能模型仍以“刷题+打分”为主流训练模式时，一支来自上海人工智能实验室、澳门大学、南京大学与香港中文大学的研究团队提出：训练不仅是做题，更要复盘、温习、内化。

他们近期发布了题为《ExGRPO: Learning to Reason from Experience》的论文，首次系统性地呈现出“经验管理”如何在大模型推理训练中发挥关键作用。

与传统的在线策略RLVR（基于可验证奖励的强化学习）方法相比，ExGRPO在攻克复杂推理难题的能力方面有显著提升。

下面，就让我们一窥 ExGRPO 框架背后的逻辑、优势与启示。

为什么是“经验驱动”

过去数年里，为了提升大型语言模型在数学推理、逻辑推理、复杂任务求解等方向的能力，研究领域普遍采用基于可验证奖励的强化学习（RLVR）方法。

但是，在 RLVR 模型训练中，模型生成一个推理轨迹（roll-out），参与训练、获得奖励后即被舍弃。

一方面，生成的轨迹往往代价昂贵。另一方面，这些“有用的轨迹”却被一次性使用，随后被丢弃——好比学生每做一道题后不复盘、不归档。

简而言之，传统训练流程存在三大痛点：

经验浪费—— 成功的推理轨迹往往被遗忘

效率低下—— 刷题而不复习，推动能力提升缓慢

训练不稳定—— 模型可能走入“做题却不理解”的状态

也就是说：当“谁的数据更多”“谁训练更久”逐渐成为瓶颈时，如何系统化地让模型复盘、复用“关键经验”便可能成为突破点。

该研究正是在这个背景下提出：并非所有经验都值得温习，关键在于「什么样的经验」以及怎样的复习方式。

经验管理＋混合策略优化

论文提出的 ExGRPO（Experiential Group Relative Policy Optimization）是一个用于推理训练的大模型经验管理与策略优化框架。

其核心在于两个维度：

经验管理：即识别、存储、筛选优质经验

混合经验优化：将精选经验与新题探索结合起来训练

在 ExGRPO 中，其经验管理由三步构成：

经验收集：每次模型成功完成一道题目后，其轨迹被加入经验回放池，有点类似错题本

经验划分与存储：根据模型的近期表现，每条经验被动态贴上“简单”“中等”“困难”标签。与此同时，若模型在某道题上已连续多次成功，则将该题移出，避免模型在已掌握题目上刷题停滞

经验筛选：根据“题目筛选”+“轨迹筛选“两项先验指标精选经验

接下来，ExGRPO 采用了“混合策略”的训练目标。在每轮训练中，一部分 minibatch 用于探索全新的问题。另一部分用于从经验池中抽取精选轨迹，反复学习。

此外，还引入“策略塑形”（Policy Shaping）机制，避免模型因为过度复习而变得保守、失去探索能力。

实验结果和行业启示

在 1.5B-8B 参数规模、不同模型架构（如 Qwen、Llama）上，ExGRPO 相比传统 On-policy RL 方法平均提升约 +3.5（分布内任务）至 +7.6（分布外任务）个百分点。

不仅如此，整体训练的稳定性与效率也有所提升。

同时，ExGRPO 也面临三大挑战。

第一，在更大规模、更多任务类型的场景下，经验识别是否依然精确？

第二，建立、维护经验池、划分分区、筛选轨迹，都需要额外计算资源与工程支持，管理成本堪忧。

第三，论文主要在数学与通用推理基准上测试。未来在语言生成、对话、跨模态任务中，这一经验复用机制能否同样奏效仍待观察。

但对模型训练体系而言，ExGRPO 提供了一个可借鉴的“错题本式”思路：不仅做题，更复盘；不仅刷题，更优化经验。

对开发者而言，可以考虑在实际模型训练中引入类似经验筛选机制——将模型成功轨迹归档、标注、复用，而不是简单丢弃。

对产业应用而言，当模型需要长期服务、持续学习、快速迭代时，经验机制尤为关键。它意味着模型不仅“会做”，还知道怎么做得更好。

对未来研究而言，经验分区、轨迹筛选、复用机制是一个值得深入的方向。未来还有可能与自动化经验选择、元学习、持续在线学习等方向融合。

参考资料：https://arxiv.org/pdf/2510.02245

【免责声明】本站所刊内容仅代表作者本人观点，与机器人网站无关。机器人网站对文中陈述、观点判断保持中立。本网转载自其它媒体的信息，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如有侵权，请联系我们删除。
本文地址：http://www.jiqiren.org.cn/tt/1179.html

为什么是“经验驱动”

经验管理＋混合策略优化

实验结果和行业启示

相关文章