据估计,2012 年至 2023 年间,算法将人工智能训练的浮点运算效率提升了22,000 倍。
MIT 最新的一篇论文则对这一时期内的关键创新进行了小规模消融实验,结果发现这些提升仅占其中不到 10 倍。据学者估计,未包含在消融实验中的其他创新带来的提升也不到 10 倍,总提升幅度不到 100 倍。
他们对 LSTM 和 Transformer 进行了扩展性实验,发现它们的计算最优扩展规律存在指数级差异;而对于许多其他创新,扩展性差异则很小。
这些实验表明,与通常的假设相反,算法的效率提升与计算规模密切相关。小型模型的算法进步远比之前假设的要慢,并且算法效率的衡量指标与此密切相关。
两种算法
过去十年人工智能的进步主要由计算资源的快速增长以及架构、优化和其他训练实践中算法效率的不断创新所驱动。但是,我们仍然缺乏对算法进步的清晰评估。
为了回答这些问题,研究人员采用了三种互补的方法:
对语言模型中重要的算法改进进行了消融实验;
进行了扩展性实验,以衡量不同架构间最优扩展性的差异;
我们对数据和参数扩展性的转变进行了理论分析。
在尺度不变的算法中,研究团队引入了标准计算等效增益(CEG)框架的广义概念,并允许算法创新在不同的计算规模下具有不同的效率增益。
团队使用消融实验,在 360 万参数变换器模型上计算算法的等效增益乘数。通过分别使用较旧的激活函数和较新的激活函数运行 Transformer 模型,可以达到固定性能水平所需的计算量差异来量化效率提升。
发现表明,位置编码可能对训练计算效率产生一定影响。与正弦编码相比,旋转编码的训练效率提高了44%。
在三种归一方法的测试中,团队发现从后 RMSNorm 过渡到预 RMSNorm 可显著提升 87%,而从预层归一化模型过渡到预 RMSNorm 模型的提升仅为 9%。
实验结果表明,从 LSTM 切换到 Modern Transformer 的总效率提升为6.28 倍,而从 LSTM 切换到 Retro Transformer 的效率提升为 4.69 倍。
在尺度相关的算法中,研究人员选择了一个标准的 LSTM 模型。在测量的最小尺度下,LSTM 模型的计算效率仅比 Transformer 模型低6.28倍。
算法进展很大程度上取决于计算和参考点
研究发现,随着计算预算的指数级增长,算法进步速度实际上可能更多地是由计算规模的规律性增长驱动,而非新技术的发现。
在 2017 年至 2025 年间,绝大多数算法进步可归因于两项与规模相关的创新:从 LSTM 到 Kaplan Transformer 的转变以及从 Chinchilla 扩展到重新平衡。
在总共测得的 21,400 倍的进步中,846 倍的进步是通过从 LSTM 到 Kaplan Transformer 的转变实现的,而近 10 倍的进步则归功于 Chinchilla 重新平衡。
基于 LSTM 的模型 Myields 的计算效率随时间 t 呈指数增长,年增长率约为63%。然而,若以密集 Transformer 为基准进行衡量,则倍数为 2,因此增长率为 0%。
由此可见,选择一个参考点会导致算法效率呈指数增长,而选择另一个参考点则会导致零增长。
Kaplan-Chinchilla 过渡后 CEG 倍数会明显增长,表明这些创新甚至可能在不同的计算规模上表现出可变的增长率。
研究人员表明,目前实验还存在以下几个局限性:
规模相对较小,且并不全面
超参数的不稳定性
专注于训练的浮点运算效率,忽略许多关键的创新
研究人员必须考察其改进的规模依赖性,才能确定其创新的真正影响。
这些发现对社会和人工智能治理具有重要意义。如果效率提升主要源于规模依赖型创新,那么计算规模的限制都可能大幅减缓人工智能算法的进步。
参考资料:
https://arxiv.org/pdf/2511.21622
【免责声明】本站所刊内容仅代表作者本人观点,与机器人网站无关。机器人网站对文中陈述、观点判断保持中立。本网转载自其它媒体的信息,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如有侵权,请联系我们删除。
本文地址:http://www.jiqiren.org.cn/tt/1306.html
