压力给到OpenAI。
2025年最热赛道AI编程又卷起来了。北京时间9月30日,Anthropic 正式发布Claude Sonnet 4.5,官方称其为“世界上最好的编程模型”,同时在智能体构建、计算机使用、推理和数学能力上有显著突破。从各方面评测来看,Claude维持了自身在编程领域的王座地位。
在不少业内人士看来,Anthropic 此次更新的时间点颇具深意——一周后,OpenAI 将举办年度开发者大会;而前不久,OpenAI 刚刚发布了强化智能体编程能力的 GPT-5-Codex,宣称能独立处理长达7小时的大型复杂任务。
而这一次,Anthropic 直接将标准拉高:Sonnet 4.5 能够在复杂、多步骤任务中保持超过30小时的持续注意力。
这一能力也得到了业内的认证,iGent AI的CEO表示,Sonnet 4.5“重新设定了行业期望”,它可以自主处理30多个小时的代码,使工程师在极短的时间内处理数月的复杂架构工作,同时保持大量代码库的一致性。
从官方的评测来看,Sonnet 4.5在编程、数学等各项评测上超越了GPT-5和谷歌的Gemini2.5 pro。
在考察真实编程水平的 SWE-bench Verified 测试里,Claude Sonnet 4.5登顶业界第一,比GPT-5-Codex高出7.5个百分点。
在面向计算机环境的开放式任务基准测试OSWorld上,Sonnet 4.5目前以61.4%的得票率领先,就在4个月前,Sonnet 4还以42.2%的得票率领先。
此外,针对专业领域,Anthropic表示,Sonnet 4.5在金融、法律、医学和STEM领域的专家发现,与包括Opus 4.1在内的旧模型相比,这一模型显示出更好的领域特定知识和推理能力。
伴随模型升级,官方还针对产品体验进行了一些升级,包括“检查点”功能,能随时保存进度并一键回退,终端界面翻新,代码执行和文件创建现在直接整合到对话里等等。在官方演示中,Claude可以直接在浏览器中工作,并且导航站点,填写电子表格和完成任务。
一位AI行业的博主表示,“如果说之前的Claude是给程序员的,那么现在的Claude是给白领的,可以直接编辑office三件套,完成邮件。”虽然现在还达不到生产级,但代码Agent为软件工程做的事情,很快就会扩展到所有知识工作领域,这只是开始。
本次更新中,一个备受关注的临时预览功能是“Imagine with Claude”。在这个功能里,Claude 会实时生成软件,没有预设的功能,也没有提前写好的代码,用户看到的一切都是 Claude实时互动、响应需求当场创建出来的。这或许是大模型语言操作系统的未来,目前还不成熟,这一功能仅在接下来五天内只对 Max 订阅用户开放。
模型更新的同时,众多AI编程领域的创业者都出来为Claude“背书”。 Cursor CEO Michael Truell表示看到了Sonnet 4.5 的优秀编码性能,并在长期任务方面取得了显著提升。这进一步印证了众多使用 Cursor 的开发者选择 Claude 来解决最复杂问题的原因。Cognition联创兼CEO Scott Wu也表示, Sonnet 4.5让Devin的规划能力和端到端评估成绩大幅度提升。
在价格方面, Sonnet 4.5提质不加价,与Sonnet 4保持一致,为3美元/百万输入tokens,15美元/百万输出tokens。但与 Anthropic 自家的上一代旗舰模型 Opus 4.1(输入 15 美元,输出 75 美元)相比,这一成本降低了5倍之多,开发者现在可以用更低的成本,获得一个在多任务上超越旗舰的模型。
自2023年3月推出以来,Anthropic 就在编程与数学等领域持续领先,也积累了众多客户。在 Cursor 平台上,Claude 仍是最受欢迎的调用模型。
月初,Anthropic宣布完成 130 亿美元的巨额融资,最新估值来到1830亿美元,一举成为全球估值第四的独角兽。彼时官方透露,2025年8月,其年化收入已超过50亿美元(约合人民币约357亿元),而2025年初这一收入为约10亿美元,八个月内,其商业化能力快速增长。
今年2月,Anthropic推出了自家AI编程工具Claude Code,并在今年5月宣布全面开放,从研究预览转为正式产品。Anthropic提到,Claude Code三个月时间使用量增长超10倍,产生超5亿美元(约合人民币36亿元)的运营收入。
然而,Anthropic 目前也面临挑战。过去两个月,用户普遍反映 Claude 模型质量出现“断崖式下滑”,质疑其为控制成本而降低模型性能,甚至引发开发者大规模退订。Anthropic 后续回应称是因独立 Bug 导致,绝非“故意降智”,但这场信任危机至今尚未完全平息。