刚刚,DeepSeek 一口气推出两个新模型:DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。
前者专注平衡推理能力与模型长度,可达到GPT-5 级别的性能,适用于日常问答等使用需求。
后者的推理能力全面提升,可与 Gemini-3.0-Pro 相媲美。
值得注意的是,V3.2-Speciale 在 IMO、CMO、ICPC 世界总决赛和 IOI 2025 中取得金牌成绩。
虽在处理复杂任务方面表现出色,但 V3.2-Speciale 需要更高的 tokens 使用量,目前仅提供 API 接口,以支持社区评估和研究。
技术突破
DeepSeek-V3.2 的方法基于三个关键技术突破:
DeepSeek 稀疏注意力(DSA):这是一种高效的注意力机制,可以显著降低计算复杂性,同时保持了模型性能,特别针对长上下文场景进行了优化。
可扩展的强化学习框架:通过实施强大的 RL 协议并扩展后训练计算,DeepSeek-V3.2 的表现与 GPT-5 相当,且高计算变体 DeepSeek-V3.2-Speciale 超越了 GPT-5,并在推理能力上与 Gemini-3.0-Pro 相当。
大规模代理任务合成管道:团队开发了一种新颖的合成管道,系统地生成大规模训练数据。这促进了可扩展的代理后训练,提高了在复杂交互环境中的合规性和泛化能力。
DeepSeek-V3.2 使用的架构与 DeepSeek-V3.2-Exp.完全相同。与 DeepSeek-V3.1 的最后一个版本相比,DeepSeek-V3.2 唯一的架构修改是通过持续训练引入 DeepSeek 稀疏注意力 (DSA)。
研究人员首先使用一个简短的预热阶段来初始化闪电索引器。
索引器预热后,引入细粒度的 token 选择机制,并优化所有模型参数,使模型适应 DSA 的稀疏模式。
团队使用一系列基准测试对 DeepSeek-V3.2-Exp 进行了评估,并将其与 DeepSeek-V3.1-Terminus 进行了比较。结果显示,两者性能相近。虽然 DeepSeek V3.2 Exp 显著提高了长序列的计算效率,但在短上下文和长上下文任务中与 DeepSeek-V3.1-Terminus 的向能相差不大。
与DeepSeek-V3.1-Terminus.中的 MLA 相比,DSA 所需的计算量要少得多。
在训练过程中,研究人员沿用了与 DeepSeek-V3.2-Exp 相同的后训练流程,其中包括专家蒸馏和混合强化学习训练。模型仍然采用组相对策略优化(GRPO)作为混合强化学习训练算法。
结果与评估
结果显示,DeepSeek-V3.2 在推理任务上与 GPT-5-high 的性能相近,但略逊于 Gemini-3.0-Pro。
与 K2-Thinking 相比,DeepSeek-V3.2 在输出 tokens 数量显著减少的情况下取得了相当的分数。这些性能提升可归因于分配给强化学习 (RL) 训练的计算资源增加。
研究人员观察到模型性能持续提升,且与 RL 训练预算的增加呈正相关,目前该预算已超过预训练成本的10%。通过增加计算预算分配,推理能力可以得到进一步增强。
值得注意的是,DeepSeek-V3.2 的性能受到长度约束奖励模型的限制;移除该限制后,性能有进一步的提升。
在代码代理评估中,DeepSeek-V3.2 在 SWE-bench Verified 和 Terminal Bench 2.0 测试中均显著优于开源 LLM,展现了其在实际编码工作流程中的潜力。
在工具使用基准测试中,DeepSeek-V3.2 显著缩小了开源和闭源 LLM 之间的性能差距,但仍低于前沿模型。
DeepSeek-V3.2-Speciale 在多个基准测试中超越了目前最先进的 Gemini-3.0-Pro 模型。
该模型在未进行专门训练的情况下,DeepSeek-V3.2-Speciale 在 ICPC WF 2025 中排名第二,在 IOI 2025 中排名第十。
然而,DeepSeek-V3.2-Speciale 的 tokens 效率仍然明显低于 Gemini-3.0-Pro。
在 Tau2Bench、MCP-Mark 和 MCP-Universe 基准测试中,DeepSeek-V3.2-SFT 的性能得到了提升。相比之下,将强化学习限制在编码和搜索场景中并不能提高这些基准测试的性能,这进一步凸显了合成数据的潜力。
相关人员表示,与 Gemini-3.0-Pro 等前沿闭源模型相比,DeepSeek-V3.2 仍然存在一些局限性。由于总训练浮点运算量较少,DeepSeek-V3.2 的世界知识广度仍然落后于领先的专有模型。团队计划在未来的迭代中通过扩展预训练计算能力来解决这一知识差距。
tokens 效率仍然是一个挑战;DeepSeek-V3.2 通常需要更长的生成轨迹才能达到 Gemini3.0-Pro 等模型的输出质量。未来的工作将着重于优化模型推理链的智能密度以提高效率。
除此之外,解决复杂任务的能力仍然不如前沿模型,DeepSeek 团队表示会进一步改进基础模型和后训练方案。
参考资料:
HuggingFace: https://huggingface.co/deepseek-ai/DeepSeek-V3.2
ModelScope: //www.jiqiren.org.cn/upload/2025/pp style="-webkit-tap-highlight-color: transparent; margin-top: 0px; margin-bottom: 0px; padding: 8px 0px; outline: 0px; max-width: 100%; clear: both; min-height: 1em; color: rgb(53, 53, 53); line-height: 1.8em; letter-spacing: 0.04em; text-indent: 2em; box-sizing: border-box !important; overflow-wrap: break-word !important;">HuggingFace: https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale
ModelScope: //www.jiqiren.org.cn/upload/2025/p
【免责声明】本站所刊内容仅代表作者本人观点,与机器人网站无关。机器人网站对文中陈述、观点判断保持中立。本网转载自其它媒体的信息,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如有侵权,请联系我们删除。
本文地址:http://www.jiqiren.org.cn/tt/1260.html
