MIT 最新论文：这十年我们高估了算法的进步-机器人产业网

导读：据估计，2012 年至 2023 年间，算法将人工智能训练的浮点运算效率提升了22,000 倍。MIT 最新的一篇论文则对这一时期内的关键创新进行了小规模消融实验，结果发现这些提升仅占其中不到 10 倍。据学者估计，未包含在消融实验中的其他创新带来的提升也不到 10 倍，总提升幅度不到 100 倍。...

据估计，2012 年至 2023 年间，算法将人工智能训练的浮点运算效率提升了22,000 倍。

MIT 最新的一篇论文则对这一时期内的关键创新进行了小规模消融实验，结果发现这些提升仅占其中不到 10 倍。据学者估计，未包含在消融实验中的其他创新带来的提升也不到 10 倍，总提升幅度不到 100 倍。

他们对 LSTM 和 Transformer 进行了扩展性实验，发现它们的计算最优扩展规律存在指数级差异；而对于许多其他创新，扩展性差异则很小。

这些实验表明，与通常的假设相反，算法的效率提升与计算规模密切相关。小型模型的算法进步远比之前假设的要慢，并且算法效率的衡量指标与此密切相关。

两种算法

过去十年人工智能的进步主要由计算资源的快速增长以及架构、优化和其他训练实践中算法效率的不断创新所驱动。但是，我们仍然缺乏对算法进步的清晰评估。

为了回答这些问题，研究人员采用了三种互补的方法：

对语言模型中重要的算法改进进行了消融实验；

进行了扩展性实验，以衡量不同架构间最优扩展性的差异；

我们对数据和参数扩展性的转变进行了理论分析。

在尺度不变的算法中，研究团队引入了标准计算等效增益（CEG）框架的广义概念，并允许算法创新在不同的计算规模下具有不同的效率增益。

团队使用消融实验，在 360 万参数变换器模型上计算算法的等效增益乘数。通过分别使用较旧的激活函数和较新的激活函数运行 Transformer 模型，可以达到固定性能水平所需的计算量差异来量化效率提升。

发现表明，位置编码可能对训练计算效率产生一定影响。与正弦编码相比，旋转编码的训练效率提高了44%。

在三种归一方法的测试中，团队发现从后 RMSNorm 过渡到预 RMSNorm 可显著提升 87%，而从预层归一化模型过渡到预 RMSNorm 模型的提升仅为 9%。

实验结果表明，从 LSTM 切换到 Modern Transformer 的总效率提升为6.28 倍，而从 LSTM 切换到 Retro Transformer 的效率提升为 4.69 倍。

在尺度相关的算法中，研究人员选择了一个标准的 LSTM 模型。在测量的最小尺度下，LSTM 模型的计算效率仅比 Transformer 模型低6.28倍。

算法进展很大程度上取决于计算和参考点

研究发现，随着计算预算的指数级增长，算法进步速度实际上可能更多地是由计算规模的规律性增长驱动，而非新技术的发现。

在 2017 年至 2025 年间，绝大多数算法进步可归因于两项与规模相关的创新：从 LSTM 到 Kaplan Transformer 的转变以及从 Chinchilla 扩展到重新平衡。

在总共测得的 21,400 倍的进步中，846 倍的进步是通过从 LSTM 到 Kaplan Transformer 的转变实现的，而近 10 倍的进步则归功于 Chinchilla 重新平衡。

基于 LSTM 的模型 Myields 的计算效率随时间 t 呈指数增长，年增长率约为63%。然而，若以密集 Transformer 为基准进行衡量，则倍数为 2，因此增长率为 0%。

由此可见，选择一个参考点会导致算法效率呈指数增长，而选择另一个参考点则会导致零增长。

Kaplan-Chinchilla 过渡后 CEG 倍数会明显增长，表明这些创新甚至可能在不同的计算规模上表现出可变的增长率。

研究人员表明，目前实验还存在以下几个局限性：

规模相对较小，且并不全面

超参数的不稳定性

专注于训练的浮点运算效率，忽略许多关键的创新
研究人员必须考察其改进的规模依赖性，才能确定其创新的真正影响。
这些发现对社会和人工智能治理具有重要意义。如果效率提升主要源于规模依赖型创新，那么计算规模的限制都可能大幅减缓人工智能算法的进步。
参考资料：
https://arxiv.org/pdf/2511.21622

【免责声明】本站所刊内容仅代表作者本人观点，与机器人网站无关。机器人网站对文中陈述、观点判断保持中立。本网转载自其它媒体的信息，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如有侵权，请联系我们删除。
本文地址：http://www.jiqiren.org.cn/tt/1306.html

两种算法

算法进展很大程度上取决于计算和参考点

相关文章