机器人产业网

Anthropic 推出 Claude Opus 4.5:编码能力排名第一

2025-12-06 10:56:52 浏览:148
导读: 今日,Claude Opus 4.5 正式发布。它在编码、智能 Agent 和计算机应用方面表现优秀;在深度研究、处理幻灯片和电子表格等日常任务方面也取得了不错的成绩。目前,Claude Opus 4.5 在真实世界软件工程测试中排行第一。测试人员指出,在无需知道的情况下,Claude Opus 4...

今日,Claude Opus 4.5 正式发布。

它在编码、智能 Agent 和计算机应用方面表现优秀;在深度研究、处理幻灯片和电子表格等日常任务方面也取得了不错的成绩。

目前,Claude Opus 4.5 在真实世界软件工程测试中排行第一。

测试人员指出,在无需知道的情况下,Claude Opus 4.5 能够处理模糊不清的情况并权衡利弊。当遇到复杂的多系统错误时,Opus 4.5 能够自行找到修复方法。

除此之外,几周前 Sonnet 4.5 几乎无法完成的任务,现在 Opus 4.5 已经能够轻松应对。

多项能力提升

在 2 小时应聘者技术能力和判断力的测试中,Claude Opus 4.5 取得了最高评分。

视觉、推理和数学能力也优于其前代产品。

Opus 4.5 编写的代码质量更高,在 SWE-bench Multilingual 的 8 种编程语言中,有7种语言的性能领先。

Opus 4.5 在不同场景下还能提供定制化且合理的解决方案。在一个场景中,模型需要扮演航空公司客服人员的角色,拒绝乘客修改经济舱机票的请求。Opus 4.5 的解决方办法是:先升级舱位,然后再修改航班。

从技术层面来说,Claude 的方式出乎意料。虽然基准测试将其判定为失败,但它提供了一种创造性的解决方式。

在中等难度的任务中,Opus 4.5 在 SWE-bench Verified 测试中取得了与 Sonnet 4.5 相同的最佳成绩,但 token 数量减少了 76%。在最高难度下,Opus 4.5 的性能比 Sonnet 4.5高出 4.3%,tokens 数量减少了48%。

通过努力控制、上下文压缩和高级工具使用,Claude Opus 4.5 运行时间更长、功能更多、需要的干预更少。

Opus 4.5 还能够构建复杂且协调良好的多智能体系统,在深度研究评估中的性能提升了近15%。

安全性能提升

Claude Opus 4.5 是 Anthropic 迄今为止最稳健的对齐模型。

面对黑客攻击,Opus 4.5 在抵御提示注入攻击方面取得了显著进展。提示注入攻击会偷偷植入欺骗性指令,诱使模型执行有害行为。

Opus 4.5 现已在 Anthropic 的应用程序、API 以及三大主流云平台上线,定价现为每百万个 token 5 美元/25 美元。

参考资料:

https://www.anthropic.com/news/claude-opus-4-5

【免责声明】本站所刊内容仅代表作者本人观点,与机器人网站无关。机器人网站对文中陈述、观点判断保持中立。本网转载自其它媒体的信息,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如有侵权,请联系我们删除。
本文地址:http://www.jiqiren.org.cn/tt/1263.html