机器人产业网

DeepSeek 最新实验模型 V3.2-Exp:首次引入稀疏注意力机制,推理更高效

2025-11-21 19:23:32 浏览:481
导读: DeepSeek 开源了最新的实验模型——V3.2-Exp。V3.2-Exp 在 V3.1-Terminus 的基础上引入了DeepSeek 稀疏注意力机制——可以优化长上下文场景下训练和推理的效率。团队对 Transformer 进行持续研究,特别注重提高处理扩展文本序列时的计算效率。为了提高效率...

DeepSeek 开源了最新的实验模型——V3.2-Exp。

V3.2-Exp 在 V3.1-Terminus 的基础上引入了DeepSeek 稀疏注意力机制——可以优化长上下文场景下训练和推理的效率。

团队对 Transformer 进行持续研究,特别注重提高处理扩展文本序列时的计算效率。

为了提高效率,DeepSeek 首次引入了稀疏注意力 (DSA),实现了细粒度稀疏注意力,在保持模型输出质量的同时提高了长上下文训练和推理效率。

为了评估 DSA 的影响,团队特意将 DeepSeek-V3.2-Exp 的训练配置与 V3.1-Terminus 进行了对齐。结果显示,DeepSeek-V3.2-Exp 的表现与 V3.1-Terminus 相当

DeepSeek 还披露了 V3.2-Exp 的技术报告,一起来看更多细节。

预训练和后训练

密集训练阶段

在此阶段,模型保持密集注意力机制,并冻结除 lightning 索引器之外的所有模型参数。

总共训练索引器 1000 步,每一步由 16 个 128K 个标记的序列组成,总共产生 21 亿个token。

稀疏训练阶段

索引器预热后,引入细粒度的 token 选择机制,并优化所有模型参数,使模型适应 DSA 的稀疏模式。

值得注意的一点是,团队将索引器的输入从计算图中分离出来,以便进行单独优化。

专家训练

后训练也采用了与稀疏持续预训练阶段相同的稀疏注意力机制。为了更严格地评估引入 DSA 的影响,DeepSeek-V3.2-Exp 保留了与 DeepSeek-V3.1-Terminus 相同的后训练流程、算法和数据。

每项任务首先会开发一个专门针对该特定领域的专用模型,所有专家模型均基于相同的预训练 DeepSeek-V3.2 基础检查点进行微调。

除了写作任务和常规问答之外,还涵盖了五个专业领域:数学、竞技编程、通用逻辑推理、代理编码和代理搜索。

每个专用模型都经过大规模强化学习 (RL) 计算训练,并采用不同的模型为长链思维推理和直接响应生成训练数据。实验结果表明,基于提炼数据训练的模型的性能仅略低于特定领域的专家模型,并且性能差距可以通过后续的强化学习训练有效消除。

混合强化学习训练

DeepSeek-V3.2-Exp 仍然采用 GRPO 作为强化学习训练算法。与之前使用多阶段强化学习训练的 DeepSeek 模型不同,V3.2-Exp 将推理、代理和人类对齐训练合并到一个强化学习阶段。这种方法有效地平衡了不同领域的性能,同时避免了多阶段训练范式中常见的灾难性遗忘问题。

奖励模式也分为两种:代理任务采用基于规则的结果奖励、长度惩罚和语言一致性奖励;一般任务采用生成式奖励模型,其中每个提示都有各自的评估标准。奖励设计平衡了两个因素:

  1. 长度与准确性

  2. 语言一致性与准确性

能力评估

在模型能力的基准测试中,DeepSeek-V3.2-Exp 在长序列上的计算效率显著提升。但与 DeepSeek-V3.1-Terminus 相比,无论是在短上下文任务还是长上下文任务中,我们均未观察到性能显著下降。

在 BrowseComp 和 SWE Verified 上,V3.2-Exp 和 V3.1-Terminus 模型的性能在整个训练过程中均稳步提升,且曲线高度一致,这反映了 DSA 的训练稳定性

DSA 在长上下文场景中实现了显著的端到端加速,与 DeepSeek-V3.1-Terminus 中的 MLA 相比,它所需的计算量要少得多。

DeepSeek 团队人员表示,他们仍在积极地在现实世界场景中进行进一步的大规模测试,以揭示稀疏注意力架构的潜在局限性。

更多技术细节请参考报告: https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

【免责声明】本站所刊内容仅代表作者本人观点,与机器人网站无关。机器人网站对文中陈述、观点判断保持中立。本网转载自其它媒体的信息,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如有侵权,请联系我们删除。
本文地址:http://www.jiqiren.org.cn/tt/1173.html