月之暗面强化学习训练系统 Seer：吞吐量提升 30%-机器人产业网

导读：近日，月之暗面和清华大学联合发表了一篇论文，详细介绍了一个强化学习训练系统 Seer——在不改变核心训练算法的前提下，大幅度提升大模型的强化学习训练速度。在生产级 RL 工作负载上的评估表明，Seer 将端到端部署吞吐量提高了 74% 到 97%，并将长尾延迟降低了 75% 到 93%，从而显著加快...

近日，月之暗面和清华大学联合发表了一篇论文，详细介绍了一个强化学习训练系统 Seer——在不改变核心训练算法的前提下，大幅度提升大模型的强化学习训练速度。

在生产级 RL 工作负载上的评估表明，Seer 将端到端部署吞吐量提高了 74% 到 97%，并将长尾延迟降低了 75% 到 93%，从而显著加快了 RL 训练迭代速度。

降本增效

论文提到，现有的同步 RL 系统面临着严重的性能瓶颈。部署阶段存在显著的长尾延迟和资源利用率低下的问题。

Seer 通过利用共享同一提示的请求之间输出长度和生成模式的相似性来解决这些挑战。引入了三项关键技术：用于动态负载均衡的分段部署、上下文感知调度、和自适应分组推测解码。

这些机制显著降低了部署阶段的长尾延迟并提高了资源效率。

传统的组级部署将请求组视为整体单元，导致实例间和实例内负载严重不均衡。Seer 通过分段部署实现动态负载均衡并防止抢占。基于分段部署，Seer 实现了在线上下文学习，从而支持上下文感知调度和自适应分组推测解码，进一步缩短部署时间。

分段式部署

Seer 采用了分割式滚动调度（Divided Rollout）来实现动态负载均衡并最大化显存利用率。Seer 不仅将请求组拆分为独立的请求，还将其进一步分解为多个块，并进行增量调度和分发。这种策略使得整个滚动调度过程能够在不触发代价高昂的抢占的情况下最大化资源利用率。

上下文感知调度

Seer 利用推测性请求机制来指导其调度策略。通过从每个 GRPO 组生成一个高优先级响应，它可以在线估算该组的预期生成长度和 KVCache 占用空间。这使得全局调度器能够实现近似的最长作业优先策略。

这种方法优先处理耗时较长的任务，使其与耗时较短的任务并行运行，从而最大化批处理密度

自适应分组推测解码

Seer 引入了一种基于在线上下文学习的推测解码机制，以实现部署加速。Seer 部署了一个分布式分组草稿服务器（DGDS），创建了一个高度精确的动态草稿模型，该模型与目标模型固有地同步。

此外，DGDS 还引入了一种自适应草稿范围机制，以最大化系统吞吐量。自适应分组推测解码在端到端吞吐量方面分别比两种消融变体高出 27% 和 11%。

实验结果

为了测试 Seer 端到端的性能，研究人员将 Seer 的吞吐量性能与同步强化学习系统 veRL 进行比较。结果显示，尽管不同强化学习任务的模型规模和工作负载特征存在显著差异，但Seer 在所有任务中均实现了显著的加速，吞吐量比 veRL提高了 74% 到 97%。

这种改进源于 Seer 的细粒度负载均衡以及其在线学习分组请求上下文信息的能力，从而实现了更优的调度策略和更高效的分组推测解码。

基准系统在迭代过程中完成时间和吞吐量表现出较大的波动性。这种不稳定性源于其组级调度方法，该方法中资源利用率受初始请求分配随机性的严重影响。相比之下，Seer 采用细粒度调度和动态负载均衡，显著降低了资源利用率的波动性。

为了进一步分析，研究人员还对部署过程中的长尾延迟现象进行了统计分析。

结果表明，尾部延迟是部署过程中的一个严重问题，尤其对于像 Moonlight 和 Qwen2-VL-72B 这样内存受限的任务而言，仅最后 10% 的请求就消耗了高达 50%的总执行时间。

由于缺乏长度信息，请求排队和抢占机制会导致长输出请求的调度延迟，使得少数请求主导最终执行阶段。其次，单一的请求组会导致实例间的负载不均衡，某些实例会被分配平均长度极长的请求，从而造成尾延迟。Seer 利用在线上下文学习和细粒度请求调度，显著降低了 75% 到 93% 的尾延迟，从而大幅提升了系统吞吐量。

参考资料：

https://arxiv.org/pdf/2511.14617

【免责声明】本站所刊内容仅代表作者本人观点，与机器人网站无关。机器人网站对文中陈述、观点判断保持中立。本网转载自其它媒体的信息，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如有侵权，请联系我们删除。
本文地址：http://www.jiqiren.org.cn/tt/1259.html

降本增效

分段式部署

上下文感知调度

自适应分组推测解码

实验结果

相关文章