Google 新论文 Titans + MIRAS：帮助人工智能拥有长期记忆-机器人产业网

导读： Transformer 架构引入了注意力机制，使模型能够回顾早期输入，从而优先处理相关的输入数据。然而，计算成本会随着序列长度的增加而急剧上升，这限制了基于 Transformer 的模型扩展到超长上下文的能力。近日，Google 在两篇新论文 Titans 和 MIRAS 中提出了一种架构和理论蓝...

Transformer 架构引入了注意力机制，使模型能够回顾早期输入，从而优先处理相关的输入数据。然而，计算成本会随着序列长度的增加而急剧上升，这限制了基于 Transformer 的模型扩展到超长上下文的能力。

近日，Google 在两篇新论文 Titans 和 MIRAS 中提出了一种架构和理论蓝图，它结合了循环神经网络 (RNN) 的速度和 Transformer 的精度。

Titans 是具体的架构（工具），而 MIRAS 是推广这些方法的理论框架（蓝图）。它们共同推进了测试时记忆的概念，即人工智能模型能够在运行过程中，无需专门的离线重新训练，就能通过整合意外信息来维持长期记忆。

MIRAS 框架实现了向实时自适应的重要转变。该架构并非将信息压缩成静态状态，而是随着数据流的流入主动学习并更新自身参数。这一关键机制使模型能够即时将新的、具体的细节融入其核心知识中。

泰坦：快速学习新知识

虽然注意力机制擅长精确的短期记忆，但 Titans 引入了一种新型的神经长期记忆模块。该模块以深度神经网络（一个多层感知器）的形式运行。这种记忆模块显著提升了模型的表达能力，使其能够在不丢失重要上下文的情况下概括大量信息。

值得注意的是，Titans 并非被动地存储数据，而是主动学习如何识别并保留连接整个输入数据中各个标记的重要关系和概念主题。

在 Titans 的背景下，当模型检测到它当前记忆的内容与新输入告诉它的内容之间存在较大差异，会产生一个“惊喜指标”。

该模型使用这种内部误差信号，使得 Titans 架构能够选择性地仅使用最新颖和打破上下文的信息来更新其长期记忆，从而保持整个过程的快速和高效。

模型还分别使用动量（捕捉相关后续信息）和遗忘（允许模型丢弃不再需要的信息）两个因素来改进机制。

MIRAS：序列建模的统一视图

MIRAS 的独特性在于它看待人工智能建模的方式。它把不同的架构视为解决同一问题的不同途径：高效地将新信息与旧信息相结合，同时又不遗漏关键概念。

MIRAS 通过四个关键设计选择定义了序列模型：

内存架构：存储信息的结构（例如，向量、矩阵或像 Titans 中的那种深度多层感知器）。

注意力偏差：模型优化的内部学习目标，决定了模型优先考虑的内容。

记忆保持闸门：记忆调节器。MIRAS 将“遗忘机制”重新解释为特定的调节形式，以平衡新知识的学习和对过去知识的保留。

内存算法：用于更新内存的优化算法。

利用 MIRAS，研究人员创建了三个特定的无注意力模型：

YAAD：采用更温和的数学惩罚（ Huber 损失）来处理错误，因此不会对个别问题反应过度。这使得模型在输入数据混乱或不一致的情况下也更加稳健。

MONETA：该模型探索了使用更复杂、更严格的数学惩罚方法。

MEMORA：该模型致力于通过强制其内存像严格的概率映射一样运行，来实现最佳的内存稳定性。通过这种约束，它确保每次更新内存状态时，变化都得到控制和平衡。但是，所有成功的现有序列模型都依赖均方误差 (MSE) 或点积相似度来确定其偏差和保留率。这种依赖性可能使模型对异常值敏感，并限制其表达能力。

实验结果

在标准语言建模数据集和零样本推理任务中，模型始终表现出更高的准确率。

消融实验表明，比较相同大小但深度不同的长期记忆模块时，记忆深度更深的模块在语言建模中始终表现出更低的困惑度。此外，它们还展现出更好的扩展性，即使序列长度显著增加，也能保持性能。

在要求对分布在极长文档中的事实进行推理的 BABILong 基准测试中，Titans 的性能优于所有基线模型，包括像 GPT-4 这样规模庞大的模型，尽管其参数量要少得多。Titans 还进一步证明了其能够有效地扩展到超过200 万个 token 的上下文窗口大小。相关人员表示，这项研究为新一代序列模型打开了大门，这些模型将循环神经网络的高效性与长上下文人工智能时代所需的表达能力相结合。

参考资料：

https://research.google/blog/titans-miras-helping-ai-have-long-term-memory/

【免责声明】本站所刊内容仅代表作者本人观点，与机器人网站无关。机器人网站对文中陈述、观点判断保持中立。本网转载自其它媒体的信息，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如有侵权，请联系我们删除。
本文地址：http://www.jiqiren.org.cn/tt/1307.html

泰坦：快速学习新知识

MIRAS：序列建模的统一视图

实验结果

相关文章