DeepSeek 最新实验模型 V3.2-Exp：首次引入稀疏注意力机制，推理更高效-机器人产业网

导读： DeepSeek 开源了最新的实验模型——V3.2-Exp。V3.2-Exp 在 V3.1-Terminus 的基础上引入了DeepSeek 稀疏注意力机制——可以优化长上下文场景下训练和推理的效率。团队对 Transformer 进行持续研究，特别注重提高处理扩展文本序列时的计算效率。为了提高效率...

DeepSeek 开源了最新的实验模型——V3.2-Exp。

V3.2-Exp 在 V3.1-Terminus 的基础上引入了DeepSeek 稀疏注意力机制——可以优化长上下文场景下训练和推理的效率。

团队对 Transformer 进行持续研究，特别注重提高处理扩展文本序列时的计算效率。

为了提高效率，DeepSeek 首次引入了稀疏注意力 (DSA)，实现了细粒度稀疏注意力，在保持模型输出质量的同时提高了长上下文训练和推理效率。

为了评估 DSA 的影响，团队特意将 DeepSeek-V3.2-Exp 的训练配置与 V3.1-Terminus 进行了对齐。结果显示，DeepSeek-V3.2-Exp 的表现与 V3.1-Terminus 相当。

DeepSeek 还披露了 V3.2-Exp 的技术报告，一起来看更多细节。

预训练和后训练

密集训练阶段

在此阶段，模型保持密集注意力机制，并冻结除 lightning 索引器之外的所有模型参数。

总共训练索引器 1000 步，每一步由 16 个 128K 个标记的序列组成，总共产生 21 亿个token。

稀疏训练阶段

索引器预热后，引入细粒度的 token 选择机制，并优化所有模型参数，使模型适应 DSA 的稀疏模式。

值得注意的一点是，团队将索引器的输入从计算图中分离出来，以便进行单独优化。

专家训练

后训练也采用了与稀疏持续预训练阶段相同的稀疏注意力机制。为了更严格地评估引入 DSA 的影响，DeepSeek-V3.2-Exp 保留了与 DeepSeek-V3.1-Terminus 相同的后训练流程、算法和数据。

每项任务首先会开发一个专门针对该特定领域的专用模型，所有专家模型均基于相同的预训练 DeepSeek-V3.2 基础检查点进行微调。

除了写作任务和常规问答之外，还涵盖了五个专业领域：数学、竞技编程、通用逻辑推理、代理编码和代理搜索。

每个专用模型都经过大规模强化学习 (RL) 计算训练，并采用不同的模型为长链思维推理和直接响应生成训练数据。实验结果表明，基于提炼数据训练的模型的性能仅略低于特定领域的专家模型，并且性能差距可以通过后续的强化学习训练有效消除。

混合强化学习训练

DeepSeek-V3.2-Exp 仍然采用 GRPO 作为强化学习训练算法。与之前使用多阶段强化学习训练的 DeepSeek 模型不同，V3.2-Exp 将推理、代理和人类对齐训练合并到一个强化学习阶段。这种方法有效地平衡了不同领域的性能，同时避免了多阶段训练范式中常见的灾难性遗忘问题。

奖励模式也分为两种：代理任务采用基于规则的结果奖励、长度惩罚和语言一致性奖励；一般任务采用生成式奖励模型，其中每个提示都有各自的评估标准。奖励设计平衡了两个因素：

长度与准确性；

语言一致性与准确性。

能力评估

在模型能力的基准测试中，DeepSeek-V3.2-Exp 在长序列上的计算效率显著提升。但与 DeepSeek-V3.1-Terminus 相比，无论是在短上下文任务还是长上下文任务中，我们均未观察到性能显著下降。

在 BrowseComp 和 SWE Verified 上，V3.2-Exp 和 V3.1-Terminus 模型的性能在整个训练过程中均稳步提升，且曲线高度一致，这反映了 DSA 的训练稳定性。

DSA 在长上下文场景中实现了显著的端到端加速，与 DeepSeek-V3.1-Terminus 中的 MLA 相比，它所需的计算量要少得多。

DeepSeek 团队人员表示，他们仍在积极地在现实世界场景中进行进一步的大规模测试，以揭示稀疏注意力架构的潜在局限性。

更多技术细节请参考报告： https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

【免责声明】本站所刊内容仅代表作者本人观点，与机器人网站无关。机器人网站对文中陈述、观点判断保持中立。本网转载自其它媒体的信息，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如有侵权，请联系我们删除。
本文地址：http://www.jiqiren.org.cn/tt/1173.html