智动智编译、程前编辑李水清智动智3月6日报道,OpenAIGPT-5.4系列型号已于今日凌晨上市。 ChatGPT、API 和 Codex 同时发布。它是第一个具有原生下一代计算能力的通用模型。根据OpenAI官方评测结果,GPT-5.4完全优于GPT-5.2、Claude Opus 4.6、Gemini 3.1 Pro等高端模型,以及计算机控制、知识工作、工具使用等综合任务。 OpenAI 联合创始人兼首席执行官 Sam Altman 在 Social Platform X 上表示,GPT-5.4 在知识工作和网络搜索方面做得更好。 OpenAI 首席研究员、扑克 AI 之父 Norm Brown 也发帖表示,GPT-5.4 是计算机控制能力和具有经济价值的任务方面的突破。他们认为,forra 的能力没有上限,预计今年人工智能整体性能将继续大幅提升。 GPT-5.4是从今天开始分阶段发布ChatGPT、Codex和API,但其思维模型仅正式向ChatGPT Plus、Team和Pro用户开放,并取代了原来的GPT-5.2思维模型。 GPT-5.2 思维模型将在模型选择器的旧模型部分向付费用户额外提供三个月,然后将于 2026 年 6 月 5 日下线。GPT-5.4 Pro 适合需要最大性能来完成复杂任务的开发人员,并提供给专业版和企业版用户。价格方面,GPT-5.4的单个代币价格高于GPT-5.2,但OpenAI博客声称其代币效率更高,可以减少大多数任务的总代币消耗。 Codex GPT-5.4 据称在实验上支持 100 万个上下文窗口。这是值得的。超过标准 272 KB 上下文窗口的请求将按正常使用量的两倍计入使用配额。此外,批量处理和灵活的计费成本标准 API 价格的一半,加急处理成本是标准价格的两倍。从投入价格来看,GPT-5.4相比GPT-5.2上涨了40%以上,产出价格上涨了7.14%。参与早期测试的开发者、AI写作助手公司HyperWrite的首席执行官Matt Schumer开始盛赞GPT-5.4,称它是世界上最好的模型,GPT-5.4的标准版本比Pro更常用,而且可编程性优越得离谱。有网友表示,苹果推出MacBook Neo后,OpenAI立即向原生释放了100万个计算机控制和上下文代币,“笔记本电脑面临生存危机”。然而,一些开发者抱怨GPT-5.4的价格太高,无法开发。 1. 第一个本地计算机就绪的 OpenAI 模型已上线,并且更有效地利用代币。 GPT-5.4延续了OpenAI在推理领域的最新最佳技术成果ence、代码生成和代理工作流程。该模型继承了GPT-5.3-Codex的编程能力,优化了模型在多种工具、软件环境和专业任务上的协同性能,涵盖表格、演示、文字处理等场景。这使得GPT-5.4能够准确、高效、可靠地完成复杂的实际任务,直接交付用户想要的结果。在ChatGPT推理模式中,GPT-5.4思维模式可以预览思维计划,并允许用户在模型执行过程中调整方向,而无需任何额外的交互,以达到更符合其需求的结果。当面对更长、更复杂的查询时,ChatGPT 的 GPT-5.4 思维模式首先使用初始解释来规划解决问题的步骤。用户可以重新开始,可以在响应过程中添加指令并调整方向,引导模型得到你想要的准确结果,而无需提出多个问题。对于复杂的任务,模型将能够思考更多并更好地记住对话中之前的步骤。这使您可以处理更长的工作流程和更复杂的关键字,同时保持您的响应一致和直接。 GPT-5.4 思维模式提高了深网搜索能力,特别是对于高度特定的查询,同时更好地保持需要较长思维过程的问题的上下文连贯性。凭借 Codex 和 API,GPT-5.4 是第一个具有原生下一代计算能力的通用 OpenAI 模型,允许代理与计算机交互并在应用程序之间执行复杂的工作流程。它支持 100 万个令牌上下文,并允许代理执行长期规划、执行和验证任务。您还可以通过搜索工作并帮助代理有效地查找和使用工具来改进大型工具和连接器生态系统中模型的行为。 GPT-5.4是OpenAI最高效的代币信息迄今为止的有效模型。与 GPT-5.2 相比,新模型使用的代币数量明显减少,从而减少了代币的使用并加快了流程。 ▲GPT-5.4、GPT-5.3-Codex、GPT-5.2三种模型在不同专业任务中的性能对比表: 2、知识工作成果:PPT生成效果更强,单次错误概率降低33%。 GPT-5.4、GPT-5.3-Codex 和 GPT-5.2 三种模型用于各种任务。这是专门任务的性能比较表。对真实经济价值任务评估模型的 GDPval 检验要求大规模模型产生跨 44 个职业标准化的知识工作结果。 GPT-5.4的对比率为83.0%,性能达到或超过行业专业人士的水平,GPT-5.2的对比率为70.9%。 GPT-5.4,一个内部基准测试,模拟投资银行初级分析师执行的电子表格建模任务,创建和编辑电子表格、PPT 和文档的平均得分为 87.3%,而 GPT-5.2 的平均得分为 68.4%。在一系列 PPT 评估任务中,人工审阅者在 68.0% 的情况下更喜欢 GPT-5.4 生成的演示文稿。原因在于GPT-5.4优越的美学表现、更丰富的视觉格式以及更有效的成像利用。在消除幻觉方面,OpenAI 曾公开表示,它是迄今为止最准确的模型。在对一组用户标记的事实错误的匿名快速测试中,与 GPT-5.2 相比,GPT-5.4 将单个事实陈述出现错误的概率降低了 33%,整个答案包含任何错误的概率降低了 18%。 3.计算机使用和视觉:计算机具有超人水平的控制能力,支持高达1024万像素的视觉输入。 GPT-5.4 是 OpenAI 第一个与计算机进行本机交互的通用模型。 OpenAI 声称这是目前开发者可以选择的最佳模型e 创建可以在各种网站和软件系统上执行实际任务的代理。该模型非常适合通过 Playwright 等库编写代码来控制计算机,甚至可以根据屏幕截图发出鼠标和键盘命令。模型的行为由开发者的指令灵活控制,允许您根据具体场景调整行为逻辑。开发人员还可以通过定制验证策略来配置模型的安全行为,以适应不同级别的风险承受能力。在各种计算机操作场景的基准测试中,GPT-5.4 性能较前代型号有所提升。在桌面环境中运行模型。在通过屏幕截图和键盘鼠标交互评估线路性能的 OSWorld-Verified 测试中,GPT-5.4 取得了 75.0% 的成功率,显着高于 GPT-5.2 的 47.3%,并超越了人类 72.4% 的水平。在网络中Arena-Verified 基准测试,测试浏览器的可用性能力,GPT-5.4 在使用 DOM 和屏幕截图交互时取得了 67.3% 的成功率,而 GPT-5.2 取得了 65.4% 的成功率。 GPT-5.4最强大的计算能力是基于模型改进的通用视觉识别能力。在测试模型视觉理解和推理能力的MMMU-Pro基准测试上,GPT-5.4在没有任何工具的情况下取得了81.2%的成功率。这比 GPT-5.2 的 79.5% 更好。 ▲GPT-5.4 分析浏览器界面和交互的屏幕截图您通过基于坐标的点击交互与 UI 元素进行交互,完成发送电子邮件和创建日历等任务。改进的视觉识别还提高了文档分析能力。在 OmniDocBench 测试中,未启用深度推理的 GPT-5.4 的平均误差为 0.109,优于 GPT-5.2 的 0.140。 OpenAI 还优化了视觉理解能力r 信息丰富的高分辨率图像,确保完全保真度。从 GPT-5.4 开始,OpenAI 引入了原生图像输入精度模式,支持高达 10,240,000 像素或最大边长 6,000 像素(以较小者为准)的全保真识别。原有的高精度图像输入模式现在支持最大256万像素或最大边长2048像素。在对 API 用户的初步测试中,研究人员观察到使用原始或高精度模式时模型定位能力、图像理解和点击准确性有了显着改善。 4. 编程:优于 GPT-5.3-Codex 并最大限度地提高代币生成速度。速度提高 1.5 倍。 GPT-5.4 将 GPT-5.3-Codex 的编码功能与知识工作和计算操作功能相结合。这些功能对于长期任务尤其重要。该模型可以自主调用工具并迭代推进任务,显着减少人工干预。在 SWE-Bench Pro 中据估计,GPT-5.4 的性能与 GPT-5.3-Codex 一样甚至更好,并且在各种推理任务上提供低延迟。在 Codex 中启用 /fast 模式可将 GPT-5.4 的令牌生成速度提高多达 1.5 倍。模型和智能水平保持不变,只是速度更快。这意味着用户在编码、迭代和调试时可以保持流畅。由于 API 的优先处理能力,开发人员可以使用 GPT-5.4 获得类似的快速体验。在内部评估和测试中,研究人员发现 GPT-5.4 在复杂的前端任务方面表现出色,并且在美观和功能上都比我们迄今为止发布的任何模型都要好。 OpenAI 还发布了一项名为“Playwright”的实验性 Codex 技能,以展示模型计算机和编码技能交互的协同改进效果。此功能允许 Codex 直观地调试 Electron 网页和应用程序,以及在应用程序开发过程中构建和测试它们。 ▲ 一款仅使用 GPT-5.4 生成的简短单词的主题公园模拟游戏。在开发过程中,使用Playwright Interactive在浏览器端进行实际测试,通过图像生成创建等距艺术资产。 5.使用工具:快速搜索和检索,以完成长时间、多次的复杂任务。基于 GPT-5.4 的智能代理现在可以在更大的工具生态系统上运行,以更可靠地选择正确的工具并以更低的成本和延迟完成多步骤工作流程。现在你可以了。 GPT-5.4 向 API 引入了工具搜索功能,使其在模型具有多个工具时能够更高效地工作。使用工具搜索功能时,GPT-5.4 首先获取可用工具的轻量级列表,并提供工具搜索功能。当模型需要使用特定工具时,它可以实时查阅该工具的定义并将其立即添加到对话上下文中。这减少了所需的代币数量或工具密集型工作流程,并有效地使用缓存,使请求更快、更便宜。该代理也很稳定并且能够适应更大的工具生态系统。 OpenAI 选择 Scale 的 MCP 来展示效率提升。 Atlas 基准测试中的 250 个任务在启用所有 36 个 MCP 服务器的情况下以两种模式进行评估。有两种模式:一种将所有 MCP 功能直接公开给模型上下文,另一种将所有 MCP 服务器置于工具发现机制后面。以下是比较结果: GPT-5.4 还包括对工具调用的改进。在 Toolathlon 基准测试中,该基准测试人工智能代理如何使用真实世界的工具和 API 完成多步骤任务,GPT-5.4 在更少的交互轮次中实现了比 GPT-5.2 更高的准确性。该任务涉及代理阅读电子邮件、提取任务附件、上传文件、评分并将结果记录在电子表格中。对于偏好非推理模式的延迟敏感应用场景,GPT-5.4 非常适合与上一代型号相比进一步优化。在网络搜索方面,GPT-5.4 增长了 17%,GPT-5.4 Pro 在 BrowseComp 中实现了 89.3%,BrowseComp 是衡量 AI 代理持续浏览网络和查找难以查找信息的能力的指标。这使得 GPT-5.4 能够在多轮中更持久地搜索,以找到最相关的来源。底线:OpenAI 巩固了其在行业中的领先地位。此次GPT-5.4的计算机运算能力和GDPval的83%增益率,表明AI执行具有经济价值的任务和本机计算机控制的上限进一步提升,进一步证明AI可以可靠地完成数据分析、客户服务、业务流程处理等高价值知识任务,并直接产生经济效益。从目前的评测表现来看,GPT-5.4的发布进一步巩固了OpenAI在行业中的领先地位。其评测表现远超前代在模型和竞争的高端模型上,有潜力成为大规模商业化和 AGI 路线图的重要基础。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。