GPT-5.2 隆重发布！-机器人产业网

导读：刚刚，OpenAI 推出 GPT?5.2，为专业知识型工作而打造。企业用户表示?，AI 每天能为他们节省 40–60 分钟；而重度用户甚至表示，每周能节省超过 10 小时。GPT?5.2 在制作电子表格、设计演示文稿、编写代码、识别图像、理解长文本上下文、使用工具以及处理复杂的多步骤项目方面表现更佳...

刚刚，OpenAI 推出 GPT?5.2，为专业知识型工作而打造。

企业用户表示?，AI 每天能为他们节省 40–60 分钟；而重度用户甚至表示，每周能节省超过 10 小时。

GPT?5.2 在制作电子表格、设计演示文稿、编写代码、识别图像、理解长文本上下文、使用工具以及处理复杂的多步骤项目方面表现更佳。

在基准测试 GDPval 中，GPT?5.2 在涵盖 44 个职业的明确知识型工作任务上超越了行业专家。

多名用户观察到，GPT?5.2 展现出强大的长时推理和工具调用性能，且在智能体数据科学和文档分析任务中表现出色。

除此之外，GPT?5.2 在智能体编码方面达到了行业领先水平，并在交互式编程、代码审查和缺陷定位等领域带来了可量化的提升。

GPT?5.2 Instant、Thinking 和 Pro 将从今天开始陆续上线，API 现已向所有开发者开放。

模型性能

具备经济效益

GPT?5.2 Thinking 非常适合真实场景与专业工作的模型。在 GDPval? 评测（覆盖 44 个职业、用于衡量明确知识型工作任务的评估）中，GPT?5.2 Thinking 有70.9%的对比项目表现优于顶尖行业专业人士或与其持平。这些任务包括制作演示文稿、电子表格以及其他专业产出。

GPT?5.2 Thinking 的输出速度在 GDPval 任务中比专家快 11 倍以上，成本却不到其 1%。这表明，在有人类监督的情况下，GPT?5.2 能有效辅助专业工作。

一位 GDPval 评委评价道：“布局设计颇为惊艳，对两个交付物的建议也非常到位，只是其中一个仍有一些小错误需要修正。”

此外，在针对初级投资银行分析师的内部电子表格建模任务的基准测试中（例如，为财富 500 强公司制作格式规范、引用完整的三表模型，或为私有化交易构建杠杆收购模型），GPT?5.2 Thinking 的平均任务得分较 GPT?5.1 提升了9.3%，由 59.1% 增至68.4%。

并排对比显示，GPT?5.2 Thinking 生成的电子表格和幻灯片在复杂度与格式呈现上都有明显提升。

编码

GPT?5.2 Thinking 在 SWE-bench Pro 测试取得了55.6%的新成绩。SWE-bench Pro 涵盖四种语言，旨在更具抗污染性、更具挑战性、更具多样性，也更贴近真实工业场景。

在 SWEvbench Verified 测试中，GPT?5.2 Thinking 取得了我们全新的最高成绩：80%。

这意味着该模型能够更可靠地调试生产环境代码、实现功能需求、重构大型代码库，并以更少的人工干预完成端到端的修复交付。

GPT?5.2 Thinking 在前端软件工程方面也优于 GPT?5.1 Thinking。早期测试者发现，它在前端开发以及复杂或非传统的 UI 工作上表现更强（尤其是涉及 3D 元素的场景）。

Windsurf 首席执行官 Jeff Wang 表示，“GPT-5.2 代表了自 GPT-5 以来在智能体编码上的最大飞跃，并且在同价位中是业界领先的编码模型。”

减少幻觉

GPT?5.2 Thinking 的幻觉率低于 GPT?5.1 Thinking。在一组来自 ChatGPT、已去标识化的查询中，含有错误的回答出现频率相对减少了 38%。

长上下文

在深度文档分析中，GPT?5.2 Thinking 的准确性显著高于 GPT?5.1 Thinking，在 4-needle MRCR 评测变体（最长可达 256k Token）中实现接近 100%的准确率。

工具调用

GPT?5.2 Thinking 在 Tau2 bench Telecom 测试中取得了98.7%的成绩，展示了它在长程、多轮任务中可靠使用工具的能力。

在对延迟敏感的场景中，GPT?5.2 Thinking 在 reasoning.effort='none' 模式下也有显著提升，性能大幅领先 GPT?5.1 和 GPT?4.1。

这意味着端到端的工作流程将更加稳健，例如处理客户支持案例、从多个系统提取数据、执行分析以及生成最终结果，各步骤之间出现中断的情况也会更少。

科学与数学

在 Google 问答基准测试 GPQA Diamond 中，GPT?5.2 Pro 取得了93.2%的成绩，GPT?5.2 Thinking 紧随其后，达到92.4%。

在专家级数学评测 FrontierMath (Tier 1–3) 中，GPT?5.2 Thinking 解决了40.3%的问题。

AGI

在 ARC-AGI-1 (Verified) 这一用于衡量通用推理能力的基准测试中，GPT?5.2 成为首个突破 90% 阈值的模型，相较去年 o3?preview 的 87% 有明显提升，同时将达到该性能的成本降低了约 390 倍。

在更高难度、更加侧重流体推理能力的 ARC-AGI-2 (Verified) 中，GPT?5.2 Thinking 以52.9%的成绩刷新了链式思维模型的最新纪录；GPT?5.2 Pro 表现更进一步，达到54.2%，进一步拓展了模型在处理全新抽象问题时的推理能力。

定价

GPT?5.2 的价格为每百万输入 Token 1.75 美元、每百万输出 Token 14 美元。

总体而言，GPT?5.2 在通用智能、长上下文理解、智能体工具调用以及视觉方面都有显著提升，使其在端到端执行复杂的真实任务时表现出色。

参考资料：

https://openai.com/zh-Hans-CN/index/introducing-gpt-5-2/

【免责声明】本站所刊内容仅代表作者本人观点，与机器人网站无关。机器人网站对文中陈述、观点判断保持中立。本网转载自其它媒体的信息，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如有侵权，请联系我们删除。
本文地址：http://www.jiqiren.org.cn/news/1289.html