Anthropic 新论文：LLM 涌现出的内省迹象-机器人产业网

导读：了解人工智能系统是否真正具备内省能力，这将有助于理解其推理过程并调试行为问题。Anthropic 的最新研究表明，目前的 Claude 模型具备一定程度的内省意识，并且能够控制自身的内部状态。虽然种内省能力仍范围有限。研究团队还发现，能力最强的模型（Claude Opus 4 和 4.1）在内省测试...

了解人工智能系统是否真正具备内省能力，这将有助于理解其推理过程并调试行为问题。

Anthropic 的最新研究表明，目前的 Claude 模型具备一定程度的内省意识，并且能够控制自身的内部状态。虽然种内省能力仍范围有限。

研究团队还发现，能力最强的模型（Claude Opus 4 和 4.1）在内省测试中表现最佳，人工智能模型的内省能力未来可能会继续发展得更加复杂。

通过概念注入测试内省

为了检验一个模型是否能够进行内省，需要将模型自我报告的“想法”与其实际的内部状态进行比较。

研究人员使用了一种称为概念注入的实验技巧。

通过记录模型在特定情境下的激活情况，找到已知含义的神经活动模式

将这些活动模式注入到模型中一个不相关的情境中

询问模型是否注意到这种注入，以及是否能够识别注入的概念

默认情况下，模型正确地指出它没有检测到任何注入的概念。然而，当向模型的激活中注入“全部大写”向量时，模型注意到其处理过程中存在一个意料之外的模式，并将其识别为与响亮或喊叫有关。

重要的是，该模型在提及被注入的概念之前，就能立即识别出注入的思维。这种即时性是此次结果与以往关于语言模型激活控制的研究之间的一个重要区别。

但这种方法通常行不通，就算是Claude Opus 4.1 也只有大约20%的时间能够感知到这种概念。总的来说，模型只能检测到以“最佳强度”注入的概念——强度太弱，模型无法识别；强度太强，则会产生幻觉或不连贯的输出。

有意控制内部状态

研究人员还发现，模型在被指示时可以控制自身的内部表征。

当指示模型思考某个特定的词语或概念时，其相应的神经活动远高于指示模型不要思考该词语或概念的情况。

这种调节内部表征的能力并不局限于明确的指令。当使用激励措施时，模型对积极激励的反应比对消极激励的反应更为强烈，从而增强了其对该概念的内部表征。

实验表明，模型确实具备一定的自我监控和控制能力，但这并不意味着它们能够始终如一地做到这一点。

大多数情况下，模型都无法展现出内省能力。但在合适的条件下，模型可以识别自身表征的内容。

如果内省机制变得更加可靠，就能显著提高这些系统的透明度，这将有助于研究人员区分真正的内省和无意或有意的歪曲。

官方表示，随着人工智能系统的不断进步，理解机器内省的局限性和可能性对于构建更加透明和值得信赖的系统至关重要。

参考资料：

https://www.anthropic.com/research/introspection

【免责声明】本站所刊内容仅代表作者本人观点，与机器人网站无关。机器人网站对文中陈述、观点判断保持中立。本网转载自其它媒体的信息，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如有侵权，请联系我们删除。
本文地址：http://www.jiqiren.org.cn/tt/1178.html

通过概念注入测试内省

有意控制内部状态

相关文章