延迟优先：英伟达发布 Nemotron-Flash，小模型也要“算得更快”-机器人产业网

导读：小型语言模型(SLM)的设计工作主要集中于减少参数数量以实现参数最优的 SLM，但参数效率并不一定能转化为实际设备上的相应加速。英伟达近日发表的论文解决了这一难题。该论文旨在识别 SLM 实际设备延迟的关键决定因素，并为以实际设备延迟为主要考虑因素的 SLM 设计和训练提供可推广的原则和方法。研究团...

小型语言模型(SLM)的设计工作主要集中于减少参数数量以实现参数最优的 SLM，但参数效率并不一定能转化为实际设备上的相应加速。

英伟达近日发表的论文解决了这一难题。该论文旨在识别 SLM 实际设备延迟的关键决定因素，并为以实际设备延迟为主要考虑因素的 SLM 设计和训练提供可推广的原则和方法。

研究团队推出 Nemotron-Flash。这是一种新型混合小型语言模型，其设计理念是降低实际应用延迟，而非追求参数数量。它具有延迟最优的深度-宽度比、通过进化搜索发现的混合算子以及训练时权重归一化等特点。

值得一提的是，该论文已被 NeurIPS 2025 接收。

小模型有什么问题？

为了弥补小模型的不足，团队确定了两个核心架构因素：深度-宽度比和算子选择。前者对小批量延迟至关重要，而后者则同时影响延迟和大批量吞吐量。

发现表明，改变深度和宽度时，准确率与参数/延迟之间的权衡关系。虽然更深的模型通常能获得更好的准确率-参数权衡，但它们在准确率-延迟权衡方面可能表现不佳，并且存在一个针对特定延迟预算的最佳深度-宽度比。

研究团队还探索了新兴的高效注意力机制，以评估它们作为候选构建算子的潜力。利用已识别出的有效算子，构建了一个进化搜索框架，用于在混合空间学习模型（SLM）中自动发现这些算子的延迟最优组合，从而提升准确率和延迟性能。

除了架构改进之外，团队还采用权重归一化技术进一步增强了 SLM 的训练，该技术能够更有效地更新权重并提高最终收敛速度。这项技术可以作为未来 SLM 的通用组件。

面向延迟最优的 SLM

对于 SLM 设计，实际设备的延迟主要取决于两个关键因素：模型的深度和宽度，以及算子的选择。

团队观察到三个现象：

更深的模型通常在较宽的深度范围内都能实现更好的精度参数权衡，尽管这种优势会逐渐饱和；

对于精度-延迟权衡，深度-细化模型的优势可能并不明显，对于给定的延迟预算，存在一个最佳深度设置。例如，当延迟预算为 3 秒时，深度为 12 的模型在所评估的设置中实现了最佳精度；

最佳深度-宽度比通常会随着延迟预算的增加而增加。这些观察结果强调了根据部署约束仔细选择深度/宽度的必要性，而不是默认使用深度-细化模型。

因此，团队探索了在模型系列中识别最佳深度-宽度比的原理性方法，通过模型深度和宽度参数化模型损失来扩展现有的缩放定律。

除了模型深度和宽度之外，每一层所使用的算子也是一个关键维度。首先，团队在完全受控的环境下训练现有的 LM 架构，以识别在准确率-延迟平衡方面最有前景的算子。然后开发了一种进化搜索流程，以自动高效地发现这些算子的混合组合，从而构建混合 SLM。

各种高效注意力机制的出现及其在混合模型中复杂的协同作用，促使团队构建一个自动化框架，以识别混合模型中高效且互补的注意力机制组合——一个进化搜索引擎，以高效地导航复杂的组合设计空间。

在训练过程中，研究人员在每次训练迭代后将模型权重投影到单位范数球面上，以此约束权重的大小。这一归一化步骤消除了径向分量，并强调了角度更新，从而在相似的梯度幅度下产生更大的相对权重变化

Nemotron-Flash：新型混合式 SLM

Nemotron-Flash 系列产品在同等尺寸的型号中实现了最低的解码延迟和最高的准确率。

Nemotron-Flash-1B 的准确率比 Qwen3-0.6B 高5.5%，延迟降低 1.9 倍，吞吐量提升 46 倍。

同样，NemotronFlash-3B 的平均准确率比 Qwen2.5-3B 和 Qwen3-1.7B 分别高出 2.0% 和 5.5%，延迟分别降低 1.7 倍和 1.3 倍，吞吐量分别提升 6.4 倍和 18.7 倍。

通过进一步优化注意力机制配置，Nemotron-Flash-3B-TP 的吞吐量分别比 Qwen2.5-3B 和 Qwen3-1.7B 高出10.1倍和29.7倍。

除了实现最具竞争力的延迟和吞吐量外，Nemotron-Flash-3B 在参数超过 15 亿的模型中，在常识推理、数学、编码和召回任务中也获得了最高的准确率。

NemotronFlash-3B-Instruct 展现了强大的推理和指令执行能力，实现了最佳的平均准确率和效率。与 Qwen2.5-1.5B 和 Qwen3-1.7B 相比，平均准确率分别提高了4.7%以上，吞吐量分别提高了4.3 倍和 18.7 倍。

参考资料：

https://arxiv.org/pdf/2511.18890

【免责声明】本站所刊内容仅代表作者本人观点，与机器人网站无关。机器人网站对文中陈述、观点判断保持中立。本网转载自其它媒体的信息，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如有侵权，请联系我们删除。
本文地址：http://www.jiqiren.org.cn/tt/1258.html

小模型有什么问题？

面向延迟最优的 SLM

Nemotron-Flash：新型混合式 SLM

相关文章