
Gemini 3的余热持续升温,GPT-5.1的流行恰逢其时。就在大家以为年度大戏即将结束的时候,
一向“寡言少语”的人择从天而降发起“奇袭”。 Claude Opus 4.5突然诞生,直接绕过传统的推广和发行流程,用最先进的产品克敌制胜。
官方的对抗是直接的。在编写代码和创建智能代理方面我是最好的。这是盲目的信任还是充分的信任?
这是一个艰难的细分。
一、亮点总结:性能猛增,成本暴跌
Claude Opus 4.5不仅仅是功能上的改进,更是效率和广度的重新定义。
——性能达到巅峰
人类有一个内在的o“顶尖工程师”考生的入职考试,其特点是难度大、时间有限,时间限制只有两个小时。
结果是:Claude Opus 4.5 的得分是公司历史上所有人类候选者中的最高分。
请记住,这不仅仅是写代码,而是在高压下对技术能力和判断力的综合考虑。通过测试并不意味着AI具备人类沟通或协作能力,但它确实证明了Claude Opus 4.5在纯粹的技术执行层面突破了人类工程师的极限。
从全行业的 SWE 基准验证(真实软件工程基准)数据来看,Opus 4.5 以 80.9% 的准确率领先。
・克劳德作品4.5:80.9%
· GPT-5.1-Codex-Max:77.9%
・克劳德十四行诗4.5:77.2%
・Gemini 3Pro:76.2%
在AI编程领域,3个百分点的提升往往意味着从“我经常要自己修复bug”到质变“你写这段代码的速度比我快。”
Opus 4.5显着提升了前端开发和视觉处理能力,还提供了更好的计算机交互。现实场景中的软件工程测试已达到新的高度。
此外,Opus 4.5 编写的代码质量很高,Opus 4.5 在 SWE Bench Multilingual 测试的八种编程语言中的七种中排名第一。
——价格革命:成本下降三分之二
上一代 Opus(Opus 4.1)很聪明,但它的价格简直“贵得离谱”:每百万输入代币 15 美元,每百万输出代币 75 美元。
这一次Anthropic他终于听了。 Opus 4.5 的价格降至每 100 万枚代币 5 美元/25 美元,每 100 万枚代币发行。
与上一代Opus相比,价格降低了三分之二。
虽然仍然比 GPT-5.1 更贵(每百万输入代币 1.25 美元/每百万输出代币 10 美元),但这个价格处于“sweet zone”适合那些将 Opus 4.5 视为旨在解决复杂问题的“大枪”的公司和开发人员。
这一策略也给竞争对手带来了性能和价格的双重压力。
——效率大幅提升:代币使用量大幅减少
Opus 4.5 通过引入可设置为高、中或低的“努力”效率参数,允许开发人员在效率和容量之间进行选择。
在中等程度的努力下,Opus 4.5 在软件平台验证中达到了 Sonnet 4.5 的最高分,同时将输出令牌使用量减少了 76%。
在最高努力水平(高努力)下,Opus 4.5 的性能比 Sonnet 4.5 好 4.3%,但在 Kun 使用中仍然降低了 48%。
2、产品力全面升级:日常办公的超智能机身
Anthropic还发布了对代理和日常生产力工具的重大更新,使Opus 4.5更加实用和有价值。
——打破语境的“无限聊天”
以前,如果您有一个 l在与人工智能对话时,你必须重新打开对话。现在,Anthropic已经解决了长聊天任务的问题,并通过上下文压缩和内存管理为付费用户实现了“无限聊天”功能。该模型智能压缩交互历史记忆,有效解决了传统上下文窗口的限制,让智能体的任务能够继续执行而不会出现“失忆”。这是项目长期发展的救命稻草。
——代理能力和创造性思维。
Opus 4.5展示了针对代理任务的卓越情境管理和高级工具使用能力,还可以高效管理多个代理系统。
此外,这些模型在解决实际问题时表现出更像人类的“灵活性”。这项测试模拟了航空公司的客户服务,规定经济舱不允许改签,因此以前的模型会完全拒绝客户。但 Opus 4.5想出了一个“天才策略”,先升级客户的舱位,然后再更改航班。虽然他因为不遵守规则而没有通过考试,但这种解决问题的创造性能力才是人类最看重的。
——新的集成和开发工具。
· Office集成:Claude for Excel完全暴露给Max、Team和Enterprise用户,并支持数据透视表和图表等复杂操作。 Chrome 浏览器插件也可供所有 Max 用户使用。
· Claude 代码改进:引入更复杂的“计划模式”,允许代理生成用户可以在执行前编辑的 plan.md 文件。 Anthropic还为开发人员发布了“编程工具调用”功能,该功能允许Claude编写并运行直接调用函数的代码。另一方面,Claude Code 现在可作为桌面应用程序使用,并支持并行运行多个本地和远程会话。
3、用户评价及对e的评价各个利益相关者:Opus 4.5 中的“神”在哪里?
他抛出的新车型的推出,在行业内外获得了巨大反响。除了官方基准数据外,来自开发者和公司的真实反馈更有说服力。
Anthropic 早期测试人员和客户的反馈一致,Opus 4.5 表现出显着提高的判断力和处理复杂且模糊任务的能力。
Anthropic 开发者关系总监 Alex Albert 表示,测试人员一致认为 Opus 4.5 是“质的飞跃”,因为它能够在处理复杂的多系统错误时直接找到解决方案,权衡利弊,无需人工干预,并且具有“一种直觉和判断力”。
企业客户提供效率声明的初步验证。
· 日本电子商务和互联网公司 Rakuten 测试了 Claude Opus 4.5 的自动化办公任务。基于Opus 4.5的代理仅经过4次迭代,而其他模型经过10次迭代就无法匹配了。 Rakuten Business AI 总经理 Yusuke Kaji 表示,这显示了“个人改进”代理的潜力。
· 基础研究实验室报告称,内部评估准确性提高了 20%,效率提高了 15%。现在我们可以执行以前无法完成的复杂任务。
GitHub 产品总监 Mario Rodriguez 表示,在早期测试中,Opus 4.5 的性能优于内部编码基准,将代币使用量减少了一半,并改进了代码迁移和重构。他说,它已被证明特别适合像环这样的任务。
· 云编码平台 Replit 总裁 Michele Catasta 在内部基准测试中称赞 Opus 4.5 相对于 Sonnet 4.5 和竞争产品的优越性,并强调大规模应用时效率会得到复合提升。
从社交媒体用户的评论来看,评价大多是正面的。总的来说,大家都认为值得一提的是,Opus 4.5 具有良好的性能,有助于提高生产力。
Andon Labs 公布了 Opus 4.5 与 Vending-Bench 2 在社交平台 X 上的测试结果,表明 Gem 也即将做到这一点。 Ini 3 Pro位居第二,表现也不错。
HyperWriteAI 首席执行官 Matt Shumer 使用 Claude Opus 4.5 来测试生成类似 Colab 的用户界面。他认为这显然比之前使用 GPT-5.1 和 Gemini 3 进行的类似测试要好得多。
用户@deredleritt3r表示,Anthropic调查了18名内部员工,了解他们在使用Opus 4.5 + Claude Code后的想法。大多数员工表示,他们的效率提高了一倍,有些人认为他们的生产力提高了 220%。
4、资深开发人员经验丰富:前沿模型的融合是必然
著名技术开发人员和评论员 Simon Willison 已通过内部测试资格预审。使用 Claude Opus 4.5 对 sqlite-utils 开源项目进行了重大重建不到两天的时间。
结果如下:
· 20 份代码提交。
· 39 个文件已更改。
· 添加了 2022 行代码,删除了 1173 行代码。
威利森还创造了经典的 Pelican 自行车。为了说明一个例子,我还尝试在 Opus 4.5 中编写代码(SVG)。
结果显示,关键词更加详细。 Opus 4.5 的效果甚至更好。
威利森先生的评价是非常恰当的。 “这显然是一个新的、更好的模型。”然而,他承认,当将编程工作恢复到 Sonnet 4.5 时,他并没有感觉速度明显变慢。
换句话说,对于日常任务来说,很难清楚地看出 Opus 4.5 和 Sonnet 4.5 之间的巨大差异。这表明当前模型在处理“简单任务”时边际效应正在下降。
威利森指出,对于当前的“前沿法学硕士”来说,越来越难以找到与前一代模型明显区别的特定任务的示例。他询问AI实验室提供“在 Sonnet 4.5 中失败但在 Opus 4.5 中成功的提示的具体示例”。这比基准测试中一个数量级的改进更引人注目。
Willison 还指出,尽管 Anthropic 声称 Opus 4.5 比业内其他尖端模型更能抵御快速注入攻击,但安全问题仍然存在。数据显示,请求注入的成功率约为每次尝试的 1/20。如果攻击者尝试 10 次不同的攻击,成功率就会增加到 1/3。这表明,在设计应用程序时,您应该假设攻击者可以找到绕过模型防御的方法。
根据专家意见,还提到了用户@peterwildeford。 “虽然他认为 Claude 4.5 Opus 足够安全”,但他对这种从参考指标到主观感觉的变化感到担忧。 ”
5、竞争格局:AI大战持续加剧
Opus 4.5 的发布此前,OpenAI 和 Google 模型更新之间发生了“不和”。这完美地体现了人工智能市场的激烈竞争。
antro形象的快速成长为本次大赛奠定了基础。 2025年第一季度,Anthropic的年收入预计将达到20亿美元,比上一季度的10亿美元增长一倍多。与此同时,每年消费超过 10 万美元的客户数量同比增加了八倍。
然而,Opus 4.5 在 Haiku 4.5(10 月)和 Sonnet 4.5(9 月)发布几周后就上线了。这种快速的迭代清晰地反映了整个行业的动态。制造商的竞争压力不断加速。
Anthropic 开发者关系总监 Albert 承认,他们能够如此快速迭代的原因之一是利用 Claude 本人来加速产品开发和模型研究。
另一方面,Opus 4.5的大幅降价压缩了产品线减少利润,但扩大了潜在市场。 Albert预测,降价将鼓励许多初创公司将Opus 4.5更广泛地集成到他们的产品中,并将其作为核心功能展示。
对于开发者和企业来说,这种激烈的竞争带来了最直接的好处:AI能力的快速提升和价格的持续下降。更强大的性能、更低的成本以及“无限聊天”等实用功能意味着人工智能代理将在日常工作流程中发挥更核心的作用。 Opus 4.5 的到来可能是我们工作方式彻底改变的开始。
6、概述:开发者新玩具,行业新标杆
Claude Opus 4.5的发布,标志着AI模型竞赛的“实现战、逻辑战、成本战”进入下半场。
它不再只是一堆参数,而是通过“努力”参数控制思维深度,通过“无休止的对话”解决真正的工作流程问题。对于我们来说对于需要处理远距离计算逻辑、长代码重组和深入调查的人来说,这可能是表面上最强大的工具。
对于一般用户来说,Sonnet 4.5还是性价比较高的。但如果你是一名需要处理复杂架构的程序员,或者是一名需要人工智能进行详细研究的研究人员,每月花一些钱升级到 Opus 4.5 可能是你今年最赚钱的投资。