OpenAI 快速推出 GPT 庆祝成立 10 周年

在谷歌等竞争对手的压力下，在紧急状态下，OpenAI 在十周年之际迅速推出了 GPT-5.2。当地时间12月11日，OpenAI正式发布其最新的GPT-5.2模型。据官方介绍，该机型适合长期专业、代理工作。这是迄今为止最强大的型号系列，适合专业工作。通过在通用智能、长期上下文理解以及智能工具调用和视觉方面的显着改进，它在端到端执行复杂的现实世界任务方面优于以前的模型。 GPT-5.2 提供三个版本：Instant、Thinking 和 Pro，将从今天开始逐步向付费计划用户推出。在 ChatGPT 上，GPT-5.1 将向付费用户保留三个月，之后支持将结束。 API（应用程序接口）向所有开发人员开放。 OpenAI 首席执行官萨姆·奥尔特曼（Altman）写道：“即使没有像美图这样的新功能完整的文件输出，GPT-5.2“看起来是我们收到过的最大的更新。”报告称，GPT-5.2已经在大多数基准测试和GDPval测试中进行了测试（GDPval是OpenAI推出的人工智能评估基准，包括学术测试和现实世界的反应，旨在衡量最先进模型在实际经济价值任务上的表现，弥合行业与行业专家之间的差距），并在涵盖44个工作类别的明确定义的知识工作任务中超越行业专家。 GPT-5.2 在 GDPval 测试 Thinking 版本中的表现在 70.9% 的编码技能比较中优于或等于顶级行业专业人士，GPT-5.2 Thinking 版本基于 SWE-Bench Pro，这是一种测试四种语言的真实软件工程测试。其目标是使其更加无污染、更具挑战性、多样化和与行业相关。在严格的评估中取得了最高分55.6%。在 SWE 银行 va综合来看，Thinking版本取得了80%的高分。根据 OpenAI 的说法，对于日常业务使用，这意味着模型可以更可靠地调试生产代码、实现功能请求、重构大型代码库以及端到端发布修复，而无需人工干预。从前端软件工程的角度来看，GPT-5.2思维也比GPT-5.1思维更好。早期测试人员发现，此功能在前端开发和复杂或非传统 UI 任务中表现明显更好，尤其是那些涉及 elements.3D 环境的任务，例如海浪模拟、圣诞卡制作和打字游戏。报告称，GPT-5.2 Thinking 的事实准确性、广泛的上下文、视觉和工具调用性能都得到了显着提高。 GPT-5.1 包含对一系列匿名问题的不准确答案。幻觉少于思想的情侣可享受 30% 的折扣。使用四针 MRCR v 实现近 100% 的任务准确度ariant（最多 256,000 个代币）。同时，对于需要超越最大上下文窗口进行思考的任务，GPT-5.2 Thinking 支持 OpenAI 的新 Responses/Compact 端点，以扩展模型的有效上下文窗口。在视觉方面，GPT-5.2 Thinking 现在是 OpenAI 迄今为止最强大的视觉模型。图形推理和理解软件界面的错误率已降至几乎相同的水平。tad，可以更好地理解图像中元素的位置。在工具调用性能方面，GPT-5.2 Thinking 在 Tau2 Bench Telecom 测试中取得了 98.7% 的成绩。在延迟敏感的使用场景中，设置 Reasoning.effort=’none’ 的性能也比 GPT-5.1 和 GPT-4.1.More 好得多。 GPT-5.2和GPT-5.1的视觉特征比较。科学和数学技能。在 GPQA 钻石测试（研究生级别，Google Q&A 基准测试）中，GPT-5.2 Pro 达到 93.2%，GPT-5.2 Thinkin 达到达92.4%。 OpenAI 表示，在最近与 GPT-5.2 Pro 合作的一项研究中，研究人员调查了统计学习理论中的开放性问题。在具体且明确的环境中，该模型随后得到了作者的验证，并提供了同行评审的证据。外部，表明最先进的模型已经支持在人类密切监督下的数学研究。同时，GPT-5.2 Pro成为首个在ARC-AGI 1（通用推理能力测量基准）测试中超过90%阈值的型号。这比去年的 o3 预览版提高了 87%，实现此性能的成本降低了约 390 倍。在难度更大、能更好隔离流体推理能力的ARC-AGI-2基准上，GPT-5.2 Thinking在思维链模型中得分为52.9%，而GPT-5.2 Pro得分为54.2%。模型推理新的抽象问题的能力得到了进一步的提高。值得不值得庆幸的是，这一天也是 OpenAI 成立 10 周年。 Altman 发表了题为《十年》的博客，回顾了 OpenAI 过去十年的进展、经验教训以及对 AGI 的思考。他表示，OpenAI 的成果超出了他的想象。 “我们设定了一个疯狂的、不可能的和前所未有的目标。从非常不确定的开始，尽管有一丝希望，通过不断的努力，我们现在似乎正在履行我们的使命。”奥特曼说，当他回顾最初的几张照片时，首先引起他注意的是每个人脸上的表情。年轻的。那一刻，我被每个人看起来多么高兴和高兴所震惊。 “那是一段疯狂而快乐的时光。我们被严重误解了。但我坚信这很重要，即使成功的机会很低，也值得付出努力，我们拥有非常有才华的人，我们有明确的目标。” OpenAI 分享了该初创公司成立 10 周年的第一张照片通用视频。他说，三年前 ChatGPT 发布时，全世界都意识到了这一点，当 GPT-4 发布时，反应更加热烈。突然之间，思考通用人工智能（AGI）就不再疯狂了。 “过去的三年是非常紧张、充满压力和重大责任的。这项技术以前所未有的规模和速度融入了世界。这需要我们高度的执行力，迫使我们快速开发全新的能力来适应这一点。这并不容易，我们每周都要做出数百个决定。我为我们团队做出的许多好的决定感到自豪，但大多数糟糕的决定都是我的。” Altman 表示，他对 OpenAI 的研究、产品路线图以及实现其使命的总体路径从未如此乐观。再过 10 年，OpenAI 几乎肯定会构建一个超级人工智能。 “我预计未来会很美好。我们将继续更加关注这些人的行动不仅仅是机器的行为，因为我们的日常生活和我们最看重的事物不会发生太大变化。但在其他方面，2035 年的人们将能够做到我们今天无法轻易想象的事情。”
特别提示：以上内容（包括图片、视频，如有）由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注：以上内容（包括图片和视频，如有）由网易号用户上传发布，网易号是一个仅提供信息存储服务的社交媒体平台。

归档

分类

由 admin

发表回复取消回复

您错过了

Triad由中国银河国际和广发证券联合保荐并在香港联交所备案。

预计2025年百度AI业务收入将达到400亿元，AI原生营销服务收入将增长301%。

元宵节当晚将发生月全食，当天的第一次月食预计将在下午 5 点 49 分发生。

黄仁勋：与OpenAI达成协议更近一步

OpenAI 快速推出 GPT 庆祝成立 10 周年

由 admin

相关文章

Triad由中国银河国际和广发证券联合保荐并在香港联交所备案。

元宵节当晚将发生月全食，当天的第一次月食预计将在下午 5 点 49 分发生。

比预计提前2个月到货！ Cyber​​Cab首款量产汽车下线，特斯拉股价却下跌近20%。

发表回复 取消回复

您错过了

Triad由中国银河国际和广发证券联合保荐并在香港联交所备案。

预计2025年百度AI业务收入将达到400亿元，AI原生营销服务收入将增长301%。

元宵节当晚将发生月全食，当天的第一次月食预计将在下午 5 点 49 分发生。

黄仁勋：与OpenAI达成协议更近一步

比预计提前2个月到货！ CyberCab首款量产汽车下线，特斯拉股价却下跌近20%。

发表回复取消回复