今天是 2026 年 1 月 21 日,距离 DeepSeek-R1 发布刚好一周年。这款曾在去年 1 月 20 日引爆全球 AI 社区的开源模型,不仅登上了《Nature》封面,更被 Hugging Face 评为平台获赞最多的模型。
R1 发布整一年,DeepSeek 的 GitHub 仓库迎来了一次不寻常的更新。在 FlashMLA 代码库的提交记录中,一个名为MODEL1的新标识出现在 114 个文件中的 28 处。
这代表 DeepSeek 的下一代旗舰模型已进入工程开发阶段。据先前报道称,这款 DeepSeek V4 的新模型,计划在 2 月中旬农历新年期间推出。
技术拆解
深入分析代码差异,MODEL1 的技术轮廓逐渐清晰。与 V3.2 沿用 576 维配置不同,MODEL1 回归到了512 维标准架构。
这一变化可能是为了更好匹配英伟达下一代 Blackwell GPU 架构的算力对齐。代码库中确实出现了大量针对 Blackwell 架构的专门优化,包括新增的 SM100 接口。
更引人注目的是 MODEL1 引入的Token-level Sparse MLA 算子演进。测试脚本中同时出现了稀疏解码和密集解码的测试文件,Sparse 算子使用 FP8 存储 KV Cache,但在计算矩阵乘法时使用 bfloat16 以保证精度。
这种混合精度设计表明,新模型将在极长上下文场景下通过稀疏化推理降低显存压力并提升速度。
Engram 机制可能是 MODEL1 最创新的部分。这一新模块将事实性记忆从昂贵的连续神经网络计算中剥离,转向确定性的高效查找。
Engram 与 MoE 形成了互补的稀疏性:MoE 实现条件计算,只激活少量专家网络;Engram实现条件查找,只命中极少量记忆条目。
V4 前瞻
近一个月来,DeepSeek 密集的技术动作为 V4 的发布铺平了道路。
1 月 4 日,DeepSeek 在arXiv 上更新了 R1 论文,页数从 22 页大幅增加到 86 页。新增了训练管线拆解、20 多个评测基准的详细数据以及长达数十页的技术附录。
论文新增了“失败的尝试”章节,坦承团队尝试过 MCTS 和 PRM 两条业界热门路线但未能成功。
1 月中旬,DeepSeek 发布了题为《Conditional Memory via Scalable Lookup》的论文,正式介绍了 Engram 模块。这篇由 DeepSeek 创始人梁文锋署名的论文,提供了条件记忆的理论基础和工程实现。
据报道称,V4 将具备更强的写代码能力,内部测试表明其 AI 编程性能有望超越 OpenAI GPT 和 Anthropic Claude。
V4 的目标是处理更长、更复杂的编码任务,这对从事复杂软件项目的开发人员来说将是一个显著优势。
DeepSeek V3.2 已在某些基准测试中优于 OpenAI GPT-5 和谷歌 Gemini 3.0 Pro,V4 有望实现进一步的突破。
Engram 技术的引入可能从根本上改变大模型的工作方式。通过将静态记忆与动态计算分离,模型可以用极低算力调用海量“已知模式”,而把宝贵计算资源集中于真正需要推理的任务。
从工程角度看,Engram 的确定性寻址方式支持在运行时从主机内存预取,这对本地部署大模型具有重要价值。
参考资料:
https://36kr.com/p/3631908557374473
//www.jiqiren.org.cn/upload/2026/pp style="text-indent: 2em;">
·【免责声明】本站所刊内容仅代表作者本人观点,与机器人网站无关。机器人网站对文中陈述、观点判断保持中立。本网转载自其它媒体的信息,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如有侵权,请联系我们删除。
本文地址:http://www.jiqiren.org.cn/tt/1514.html
