刚刚,OpenAI 推出 GPT?5.2,为专业知识型工作而打造。
企业用户表示?,AI 每天能为他们节省 40–60 分钟;而重度用户甚至表示,每周能节省超过 10 小时。
GPT?5.2 在制作电子表格、设计演示文稿、编写代码、识别图像、理解长文本上下文、使用工具以及处理复杂的多步骤项目方面表现更佳。
在基准测试 GDPval 中,GPT?5.2 在涵盖 44 个职业的明确知识型工作任务上超越了行业专家。
多名用户观察到,GPT?5.2 展现出强大的长时推理和工具调用性能,且在智能体数据科学和文档分析任务中表现出色。
除此之外,GPT?5.2 在智能体编码方面达到了行业领先水平,并在交互式编程、代码审查和缺陷定位等领域带来了可量化的提升。
GPT?5.2 Instant、Thinking 和 Pro 将从今天开始陆续上线,API 现已向所有开发者开放。
模型性能
具备经济效益
GPT?5.2 Thinking 非常适合真实场景与专业工作的模型。在 GDPval? 评测(覆盖 44 个职业、用于衡量明确知识型工作任务的评估)中,GPT?5.2 Thinking 有70.9%的对比项目表现优于顶尖行业专业人士或与其持平。这些任务包括制作演示文稿、电子表格以及其他专业产出。
GPT?5.2 Thinking 的输出速度在 GDPval 任务中比专家快 11 倍以上,成本却不到其 1%。这表明,在有人类监督的情况下,GPT?5.2 能有效辅助专业工作。
一位 GDPval 评委评价道:“布局设计颇为惊艳,对两个交付物的建议也非常到位,只是其中一个仍有一些小错误需要修正。”
此外,在针对初级投资银行分析师的内部电子表格建模任务的基准测试中(例如,为财富 500 强公司制作格式规范、引用完整的三表模型,或为私有化交易构建杠杆收购模型),GPT?5.2 Thinking 的平均任务得分较 GPT?5.1 提升了9.3%,由 59.1% 增至68.4%。
并排对比显示,GPT?5.2 Thinking 生成的电子表格和幻灯片在复杂度与格式呈现上都有明显提升。
编码
GPT?5.2 Thinking 在 SWE-bench Pro 测试取得了55.6%的新成绩。SWE-bench Pro 涵盖四种语言,旨在更具抗污染性、更具挑战性、更具多样性,也更贴近真实工业场景。
在 SWEvbench Verified 测试中,GPT?5.2 Thinking 取得了我们全新的最高成绩:80%。
这意味着该模型能够更可靠地调试生产环境代码、实现功能需求、重构大型代码库,并以更少的人工干预完成端到端的修复交付。
GPT?5.2 Thinking 在前端软件工程方面也优于 GPT?5.1 Thinking。早期测试者发现,它在前端开发以及复杂或非传统的 UI 工作上表现更强(尤其是涉及 3D 元素的场景)。
Windsurf 首席执行官 Jeff Wang 表示,“GPT-5.2 代表了自 GPT-5 以来在智能体编码上的最大飞跃,并且在同价位中是业界领先的编码模型。”
减少幻觉
GPT?5.2 Thinking 的幻觉率低于 GPT?5.1 Thinking。在一组来自 ChatGPT、已去标识化的查询中,含有错误的回答出现频率相对减少了 38%。
长上下文
在深度文档分析中,GPT?5.2 Thinking 的准确性显著高于 GPT?5.1 Thinking,在 4-needle MRCR 评测变体(最长可达 256k Token)中实现接近 100%的准确率。
工具调用
GPT?5.2 Thinking 在 Tau2 bench Telecom 测试中取得了98.7%的成绩,展示了它在长程、多轮任务中可靠使用工具的能力。
在对延迟敏感的场景中,GPT?5.2 Thinking 在 reasoning.effort='none' 模式下也有显著提升,性能大幅领先 GPT?5.1 和 GPT?4.1。
这意味着端到端的工作流程将更加稳健,例如处理客户支持案例、从多个系统提取数据、执行分析以及生成最终结果,各步骤之间出现中断的情况也会更少。
科学与数学
在 Google 问答基准测试 GPQA Diamond 中,GPT?5.2 Pro 取得了93.2%的成绩,GPT?5.2 Thinking 紧随其后,达到92.4%。
在专家级数学评测 FrontierMath (Tier 1–3) 中,GPT?5.2 Thinking 解决了40.3%的问题。
AGI
在 ARC-AGI-1 (Verified) 这一用于衡量通用推理能力的基准测试中,GPT?5.2 成为首个突破 90% 阈值的模型,相较去年 o3?preview 的 87% 有明显提升,同时将达到该性能的成本降低了约 390 倍。
在更高难度、更加侧重流体推理能力的 ARC-AGI-2 (Verified) 中,GPT?5.2 Thinking 以52.9%的成绩刷新了链式思维模型的最新纪录;GPT?5.2 Pro 表现更进一步,达到54.2%,进一步拓展了模型在处理全新抽象问题时的推理能力。
定价
GPT?5.2 的价格为每百万输入 Token 1.75 美元、每百万输出 Token 14 美元。
总体而言,GPT?5.2 在通用智能、长上下文理解、智能体工具调用以及视觉方面都有显著提升,使其在端到端执行复杂的真实任务时表现出色。
参考资料:
https://openai.com/zh-Hans-CN/index/introducing-gpt-5-2/
【免责声明】本站所刊内容仅代表作者本人观点,与机器人网站无关。机器人网站对文中陈述、观点判断保持中立。本网转载自其它媒体的信息,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如有侵权,请联系我们删除。
本文地址:http://www.jiqiren.org.cn/news/1289.html
