Anthropic 推出 Claude Opus 4.5：编码能力排名第一-机器人产业网

导读：今日，Claude Opus 4.5 正式发布。它在编码、智能 Agent 和计算机应用方面表现优秀；在深度研究、处理幻灯片和电子表格等日常任务方面也取得了不错的成绩。目前，Claude Opus 4.5 在真实世界软件工程测试中排行第一。测试人员指出，在无需知道的情况下，Claude Opus 4...

今日，Claude Opus 4.5 正式发布。

它在编码、智能 Agent 和计算机应用方面表现优秀；在深度研究、处理幻灯片和电子表格等日常任务方面也取得了不错的成绩。

目前，Claude Opus 4.5 在真实世界软件工程测试中排行第一。

测试人员指出，在无需知道的情况下，Claude Opus 4.5 能够处理模糊不清的情况并权衡利弊。当遇到复杂的多系统错误时，Opus 4.5 能够自行找到修复方法。

除此之外，几周前 Sonnet 4.5 几乎无法完成的任务，现在 Opus 4.5 已经能够轻松应对。

多项能力提升

在 2 小时应聘者技术能力和判断力的测试中，Claude Opus 4.5 取得了最高评分。

视觉、推理和数学能力也优于其前代产品。

Opus 4.5 编写的代码质量更高，在 SWE-bench Multilingual 的 8 种编程语言中，有7种语言的性能领先。

Opus 4.5 在不同场景下还能提供定制化且合理的解决方案。在一个场景中，模型需要扮演航空公司客服人员的角色，拒绝乘客修改经济舱机票的请求。Opus 4.5 的解决方办法是：先升级舱位，然后再修改航班。

从技术层面来说，Claude 的方式出乎意料。虽然基准测试将其判定为失败，但它提供了一种创造性的解决方式。

在中等难度的任务中，Opus 4.5 在 SWE-bench Verified 测试中取得了与 Sonnet 4.5 相同的最佳成绩，但 token 数量减少了 76%。在最高难度下，Opus 4.5 的性能比 Sonnet 4.5高出 4.3%，tokens 数量减少了48%。

通过努力控制、上下文压缩和高级工具使用，Claude Opus 4.5 运行时间更长、功能更多、需要的干预更少。

Opus 4.5 还能够构建复杂且协调良好的多智能体系统，在深度研究评估中的性能提升了近15%。

安全性能提升

Claude Opus 4.5 是 Anthropic 迄今为止最稳健的对齐模型。

面对黑客攻击，Opus 4.5 在抵御提示注入攻击方面取得了显著进展。提示注入攻击会偷偷植入欺骗性指令，诱使模型执行有害行为。

Opus 4.5 现已在 Anthropic 的应用程序、API 以及三大主流云平台上线，定价现为每百万个 token 5 美元/25 美元。

参考资料：

https://www.anthropic.com/news/claude-opus-4-5

【免责声明】本站所刊内容仅代表作者本人观点，与机器人网站无关。机器人网站对文中陈述、观点判断保持中立。本网转载自其它媒体的信息，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如有侵权，请联系我们删除。
本文地址：http://www.jiqiren.org.cn/tt/1263.html

多项能力提升

安全性能提升

相关文章