机器人产业网

MIT 最新论文:这十年我们高估了算法的进步

2025-12-13 11:36:49 浏览:10
导读: 据估计,2012 年至 2023 年间,算法将人工智能训练的浮点运算效率提升了22,000 倍。MIT 最新的一篇论文则对这一时期内的关键创新进行了小规模消融实验,结果发现这些提升仅占其中不到 10 倍。据学者估计,未包含在消融实验中的其他创新带来的提升也不到 10 倍,总提升幅度不到 100 倍。...

据估计,2012 年至 2023 年间,算法将人工智能训练的浮点运算效率提升了22,000 倍

MIT 最新的一篇论文则对这一时期内的关键创新进行了小规模消融实验,结果发现这些提升仅占其中不到 10 倍。据学者估计,未包含在消融实验中的其他创新带来的提升也不到 10 倍,总提升幅度不到 100 倍。

他们对 LSTM 和 Transformer 进行了扩展性实验,发现它们的计算最优扩展规律存在指数级差异;而对于许多其他创新,扩展性差异则很小。

这些实验表明,与通常的假设相反,算法的效率提升与计算规模密切相关。小型模型的算法进步远比之前假设的要慢,并且算法效率的衡量指标与此密切相关。

两种算法

过去十年人工智能的进步主要由计算资源的快速增长以及架构、优化和其他训练实践中算法效率的不断创新所驱动。但是,我们仍然缺乏对算法进步的清晰评估。

为了回答这些问题,研究人员采用了三种互补的方法:

  1. 对语言模型中重要的算法改进进行了消融实验;

  2. 进行了扩展性实验,以衡量不同架构间最优扩展性的差异

  3. 我们对数据和参数扩展性的转变进行了理论分析。

在尺度不变的算法中,研究团队引入了标准计算等效增益(CEG)框架的广义概念,并允许算法创新在不同的计算规模下具有不同的效率增益。

团队使用消融实验,在 360 万参数变换器模型上计算算法的等效增益乘数。通过分别使用较旧的激活函数和较新的激活函数运行 Transformer 模型,可以达到固定性能水平所需的计算量差异来量化效率提升。

发现表明,位置编码可能对训练计算效率产生一定影响。与正弦编码相比,旋转编码的训练效率提高了44%。

在三种归一方法的测试中,团队发现从后 RMSNorm 过渡到预 RMSNorm 可显著提升 87%,而从预层归一化模型过渡到预 RMSNorm 模型的提升仅为 9%。

实验结果表明,从 LSTM 切换到 Modern Transformer 的总效率提升为6.28 倍,而从 LSTM 切换到 Retro Transformer 的效率提升为 4.69 倍。

在尺度相关的算法中,研究人员选择了一个标准的 LSTM 模型。在测量的最小尺度下,LSTM 模型的计算效率仅比 Transformer 模型低6.28倍。

算法进展很大程度上取决于计算和参考点

研究发现,随着计算预算的指数级增长,算法进步速度实际上可能更多地是由计算规模的规律性增长驱动,而非新技术的发现。

在 2017 年至 2025 年间,绝大多数算法进步可归因于两项与规模相关的创新:从 LSTM 到 Kaplan Transformer 的转变以及从 Chinchilla 扩展到重新平衡

在总共测得的 21,400 倍的进步中,846 倍的进步是通过从 LSTM 到 Kaplan Transformer 的转变实现的,而近 10 倍的进步则归功于 Chinchilla 重新平衡。

基于 LSTM 的模型 Myields 的计算效率随时间 t 呈指数增长,年增长率约为63%。然而,若以密集 Transformer 为基准进行衡量,则倍数为 2,因此增长率为 0%。

由此可见,选择一个参考点会导致算法效率呈指数增长,而选择另一个参考点则会导致零增长

Kaplan-Chinchilla 过渡后 CEG 倍数会明显增长,表明这些创新甚至可能在不同的计算规模上表现出可变的增长率

研究人员表明,目前实验还存在以下几个局限性:

  • 规模相对较小,且并不全面

  • 超参数的不稳定性

  • 专注于训练的浮点运算效率,忽略许多关键的创新

  • 研究人员必须考察其改进的规模依赖性,才能确定其创新的真正影响。

    这些发现对社会和人工智能治理具有重要意义。如果效率提升主要源于规模依赖型创新,那么计算规模的限制都可能大幅减缓人工智能算法的进步

    参考资料:

    https://arxiv.org/pdf/2511.21622

【免责声明】本站所刊内容仅代表作者本人观点,与机器人网站无关。机器人网站对文中陈述、观点判断保持中立。本网转载自其它媒体的信息,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如有侵权,请联系我们删除。
本文地址:http://www.jiqiren.org.cn/tt/1306.html