Claude Opus 4.7 正式发布
摘要
Anthropic 发布了 Claude Opus 4.7,这是一款全新的 AI 模型,在高级软件工程、视觉能力和自我验证方面实现了显著提升。该版本包含专门的安全防护措施,现已通过 API 及主要云服务商提供。
我们最新的 Opus 模型在编程、智能体、视觉和多步骤任务方面表现更加出色,能够针对最重要的工作提供更全面、更一致的输出。
查看缓存全文
缓存时间: 2026/05/08 09:37
# 推出 Claude Opus 4.7
来源:https://www.anthropic.com/news/claude-opus-4-7
我们的最新模型 Claude Opus 4.7 现已全面开放。
Opus 4.7 在 Opus 4.6 的基础上实现了显著提升,尤其在高级软件工程领域,最难任务上的进步尤为突出。用户反馈称,他们现在可以放心地将最棘手的编码工作交给 Opus 4.7——这类工作过去需要密切监督。Opus 4.7 以严谨和一致的方式处理复杂、长时运行的任务,精确遵循指令,并能在汇报前主动验证自身输出。
该模型的视觉能力也大幅提升:它能以更高分辨率查看图像。在完成专业任务时,它更具审美品味和创造力,能产出更高质量的界面、幻灯片和文档。虽然它的综合能力不及我们最强大的模型 Claude Mythos Preview,但在一系列基准测试中,它的表现优于 Opus 4.6:
上周我们宣布了 Project Glasswing(https://www.anthropic.com/glasswing),探讨了 AI 模型在网络安全领域的风险与收益。我们表示将限制 Claude Mythos Preview 的发布范围,并先在能力较弱的模型上测试新的网络安全防护措施。Opus 4.7 就是首个此类模型:它的网络能力不及 Mythos Preview(事实上,在训练过程中我们尝试了有针对性地降低这些能力)。我们为 Opus 4.7 配备了自动检测并拦截表明存在违禁或高风险网络安全用途请求的防护措施。我们从这些防护措施实际部署中积累的经验,将帮助我们朝着最终广泛发布 Mythos 级别模型的目标迈进。
希望将 Opus 4.7 用于合法网络安全目的(如漏洞研究、渗透测试和红队演练)的安全专业人员,欢迎加入我们的 Cyber Verification Program(https://support.claude.com/en/articles/14604842-real-time-cyber-safeguards-on-claude)。
Opus 4.7 今日起在所有 Claude 产品以及我们的 API、Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 上可用。定价与 Opus 4.6 保持一致:每百万输入 token 5 美元,每百万输出 token 25 美元。开发者可通过 Claude API(https://platform.claude.com/docs/en/about-claude/models/overview)使用 `claude-opus-4-7`。
## 测试 Claude Opus 4.7
Claude Opus 4.7 获得了早期测试用户的积极反馈:
logo
> 在早期测试中,我们看到 Claude Opus 4.7 有望为我们的开发者带来重大飞跃。它能在规划阶段捕捉自身的逻辑缺陷,并加速执行,远超以往的 Claude 模型。作为一家服务数百万消费者和企业的大规模金融科技平台,这种速度与精确度的结合可能带来变革性影响:加速开发速度,更快交付客户每天信赖的金融解决方案。
logo
> Anthropic 已经为编码模型树立了标杆,而 Claude Opus 4.7 以有意义的方式将这一标准推向更高,成为市场上最先进的模型。在我们的内部评估中,它不仅以原始能力脱颖而出,更在处理真实世界的异步工作流——自动化、CI/CD 和长时运行任务——方面表现出色。它思考问题更加深入,观点更加鲜明,而非一味附和用户。
logo
> Claude Opus 4.7 是 Hex 评估过的最强模型。当数据缺失时,它会正确报告而非提供看似合理实则错误的替代答案,并且能抵御连 Opus 4.6 都会上当的不和谐数据陷阱。它是更智能、更高效的 Opus 4.6:低投入的 Opus 4.7 大致相当于中等投入的 Opus 4.6。
logo
> 在我们的 93 项编码基准测试中,Claude Opus 4.7 比 Opus 4.6 提升了 13% 的解决率,包括四项 Opus 4.6 和 Sonnet 4.6 都无法解决的任务。结合更快的中位延迟和严格的指令遵循能力,它对复杂、长时运行编码工作流尤为重要。它减少了多步骤任务中的摩擦,让开发者能够保持心流、专注构建。
logo
> 基于我们的内部研究智能体基准测试,Claude Opus 4.7 在多步骤工作方面展现出我们所见过的最强效率基线。它在六个模块中以 0.715 的成绩并列总分第一,并提供了我们测试过的所有模型中最一致的长上下文表现。在"通用金融"——我们最大的模块——上,它比 Opus 4.6 有显著提升,得分 0.813 对 0.767,同时在该组中展现出最佳的披露和数据规范。在演绎逻辑方面——Opus 4.6 的薄弱环节——Opus 4.7 表现扎实。
logo
> Claude Opus 4.7 拓展了模型调查和完成任务的极限。Anthropic 显然针对长时运行中的持续推理进行了优化,这体现在其市场领先的性能上。随着工程师从与智能体一对一协作转向并行管理多个智能体,这正是解锁新工作流的前沿能力。
logo
> 我们看到 Claude Opus 4.7 在多模态理解方面有重大改进,从读取化学结构到解读复杂技术图表。更高的分辨率支持正在帮助 Solve Intelligence 构建生命科学专利工作流领域的一流工具,涵盖从撰写和审查到侵权检测和无效性图表制作。
logo
> Claude Opus 4.7 在 Devin 中将长程自主性提升到新高度。它能连贯工作数小时,攻克难题而非放弃,解锁了我们此前无法可靠运行的深度调查工作类别。
logo
> 对 Replit 而言,升级 Claude Opus 4.7 是一个轻松的决定。对于用户日常的工作,我们观察到它以更低成本实现了同等质量——在分析日志和跟踪、查找 bug、提出修复方案等任务上更高效、更精确。就我个人而言,我喜欢它在技术讨论中提出异议,帮助我做出更好的决策。它真的感觉像是一个更好的同事。
logo
> Claude Opus 4.7 在 Harvey 的 BigLaw Bench 上展现出强大的实质准确性,高投入下达到 90.9%,在审查表格上具有更好的推理校准,对模糊文档编辑任务的处理也更智能。它能正确区分转让条款和控制权变更条款,这是以往前沿模型难以完成的任务。实质准确性在我们的评估中始终被评为优势:正确、全面、引用充分。
logo
> Claude Opus 4.7 是非常出色的编码模型,尤其在自主性和更具创造性的推理方面。在 CursorBench 上,Opus 4.7 实现了能力的显著跃升,通过率超过 70%,而 Opus 4.6 为 58%。
logo
> 对于复杂的多步骤工作流,Claude Opus 4.7 是明显的进步:比 Opus 4.6 提升 14%,使用更少的 token,工具错误仅为三分之一。它是首个通过我们隐性需求测试的模型,并且能在过去会让 Opus 停滞的工具故障中继续执行。这是可靠性的飞跃,让 Notion Agent 感觉像真正的队友。
logo
> 在我们的评估中,我们看到核心编排智能体的工具调用和规划准确性实现了两位数增长。当用户利用 Hebbia 规划和执行检索、幻灯片制作或文档生成等用例时,Claude Opus 4.7 展现出改善这些工作流中智能体决策的潜力。
logo
> 在 Rakuten-SWE-Bench 上,Claude Opus 4.7 解决的生产任务数量是 Opus 4.6 的 3 倍,代码质量和测试质量均有两位数提升。这是有意义的提升,也是我们团队每天交付的工程工作的明确升级。
logo
> 对于 CodeRabbit 的代码审查工作负载,Claude Opus 4.7 是我们测试过的最敏锐的模型。召回率提升超过 10%,在我们最复杂的 PR 中发现了最难检测的一些 bug,而尽管覆盖范围扩大,精确率仍保持稳定。在我们的测试平台上,它比 GPT-5.4 xhigh 更快,我们正将其用于最繁重的审查工作。
logo
> 对于 Genspark 的 Super Agent,Claude Opus 4.7 精准把握了三个最关键的生产差异化因素:循环抗性、一致性和优雅的错误恢复。循环抗性最为关键。在 18 次查询中就有 1 次无限循环的模型会浪费算力并阻塞用户。更低的方差意味着生产环境中更少的意外。Opus 4.7 实现了我们测量过的最高质量-工具调用比率。
logo
> Claude Opus 4.7 对 Warp 而言是显著的提升。Opus 4.6 已经是开发者最好的模型之一,而这个模型在此基础上更加彻底。它通过了以往 Claude 模型失败的 Terminal Bench 任务,解决了 Opus 4.6 无法攻克的棘手并发 bug。对我们来说,这就是信号。
logo
> Claude Opus 4.7 是世界上构建仪表盘和数据丰富界面最好的模型。设计品味真正令人惊喜——它做出的选择是我真的会发布的。它现在是我默认的日常主力。
logo
> Claude Opus 4.7 是我们在 Quantium 测试过的最有能力的模型。通过我们的专有基准解决方案与领先 AI 模型对比评估,最大的提升出现在最紧要的方面:推理深度、结构化问题框架和复杂技术工作。更少的修正、更快的迭代、更强的输出,以解决客户带给我们的最难问题。
logo
> Claude Opus 4.7 感觉像是真正的智能飞跃。代码质量明显改善,它剔除了过去堆积的无意义的包装函数和回退脚手架,并在过程中修复自己的代码。这是我们从 Sonnet 3.7 升级到 Claude 4 系列以来最干净的跃升。
logo
> 对于 XBOW 自主渗透测试核心的计算机使用工作,新的 Claude Opus 4.7 是阶跃式变化:在我们的视觉敏锐度基准上达到 98.5%,而 Opus 4.6 为 54.5%。我们最大的 Opus 痛点实际上消失了,这解锁了我们此前无法使用的整个工作类别。
logo
> Claude Opus 4.7 对 Vercel 来说是稳固的升级,没有任何退步。它在一次性编码任务上表现出色,比 Opus 4.6 更正确、更完整,对自身局限性的诚实度也明显提升。它甚至会在开始系统代码工作之前进行验证,这是我们此前从未在更早的 Claude 模型中见过的新行为。
logo
> Claude Opus 4.7 非常强大,在 Factory Droids 上比 Opus 4.6 有 10% 到 15% 的任务成功率提升,工具错误更少,验证步骤的跟进更可靠。它全程推进工作而非半途而废,这正是企业工程团队所需要的。
logo
> Claude Opus 4.7 自主从零构建了一个完整的 Rust 文本转语音引擎——神经网络模型、SIMD 内核、浏览器演示——然后将自己的输出通过语音识别器验证是否与 Python 参考匹配。数月的高级工程工作,自主完成。从 Opus 4.6 的跃升是明显的,代码库已公开。
logo
> Claude Opus 4.7 通过了以往 Claude 模型无法通过的三个 TBench 任务,并且修复了我们此前最佳模型遗漏的问题,包括一个竞态条件。它在识别真实问题方面展现出强大的精确性,并提出了其他模型要么放弃、要么未能解决的重要发现。在 Qodo 的真实代码审查基准中,我们观察到顶级的精确率。
logo
> 在 Databricks 的 OfficeQA Pro 上,Claude Opus 4.7 展现出明显更强的文档推理能力,处理源信息时比 Opus 4.6 少 21% 的错误。在我们的数据智能体推理基准中,它是企业文档分析表现最佳的 Claude 模型。
logo
> 对于 Ramp,Claude Opus 4.7 在智能体团队工作流中脱颖而出。我们看到更强的角色忠实度、指令遵循、协调和复杂推理,尤其是在跨越工具、代码库和调试上下文的工程任务上。与 Opus 4.6 相比,它需要的手把手指导少得多,帮助我们扩展工程团队运行的内部智能体工作流。
logo
> Claude Opus 4.7 对 Bolt 的长时运行应用构建工作明显优于 Opus 4.6,最佳情况下提升高达 10%,而且没有我们在高度智能体化模型中常见的退步。它将用户在单次会话中能交付的成果推向新的高度。
以下是我们早期测试 Opus 4.7 的一些亮点和注意事项:
- **指令遵循**。Opus 4.7 在遵循指令方面大幅提升。有趣的是,这意味着为早期模型编写的提示有时可能产生意外结果:以往模型会宽松解读指令或完全跳过部分,而 Opus 4.7 会字面理解指令。用户应相应重新调整提示和测试框架。
- **改进的多模态支持**。Opus 4.7 对高分辨率图像的视觉能力更佳:可接受长边最大 2,576 像素(约 375 万像素)的图像,是此前 Claude 模型的三倍以上。这开启了依赖精细视觉细节的大量多模态用途:计算机使用智能体读取密集截图、从复杂图表中提取数据、需要像素级参考的工作。1
- **实际工作**。除了在 Finance Agent 评估上的最先进得分(见上表),我们的内部测试显示 Opus 4.7 是比 Opus 4.6 更有效的金融分析师,产出严谨的分析和模型、更专业的演示,以及更紧密的任务整合。Opus 4.7 在 GDPval-AA(https://artificialanalysis.ai/evaluations/gdpval-aa)上也处于领先地位,这是第三方对金融、法律及其他领域具有经济价值的知识工作的评估。
- **记忆**。Opus 4.7 更擅长使用基于文件系统的记忆。它能在长时、多会话工作中记住重要笔记,并利用它们开展新任务,从而减少新任务所需的前期上下文。
以下图表展示了我们发布前测试中的更多评估结果,涵盖多个不同领域:
## 安全与对齐
总体而言,Opus 4.7 的安全特征与 Opus 4.6 相似:我们的评估显示欺骗、谄媚和协助滥用等令人担忧的行为发生率较低。在某些指标上,如诚实性和抵抗恶意"提示注入"攻击的能力,Opus 4.7 优于 Opus 4.6;在其他方面(如给出过于详细的管制物质 harm-reduction 建议的倾向),Opus 4.7 略有不足。我们的对齐评估结论是该模型"大体上对齐良好且值得信赖,尽管行为并非完全理想"。请注意,根据我们的评估,Mythos Preview 仍是我们训练过的对齐最佳的模型。我们的安全评估完整内容请参见 Claude Opus 4.7 System Card(https://anthropic.com/claude-opus-4-7-system-card)。
我们自动行为审计中的总体错位行为得分。在此评估中,Opus 4.7 相比 Opus 4.6 和 Sonnet 4.6 有适度改进,但 Mythos Preview 仍显示出最低的错位行为率。
## 今日同时发布
除 Claude Opus 4.7 本身外,我们还发布了以下更新:
- **更多 effort 控制**:Opus 4.7 引入了新的 `xhigh`("extra high")effort 级别(https://platform.claude.com/docs/en/build-with-c
相似文章
推出 Claude Opus 4.6
Anthropic 宣布推出 Claude Opus 4.6,这是其最强大模型的升级版本,旨在提供更好的规划能力、更长的任务记忆以及更高的自主性。
Anthropic Labs 推出 Claude Design
Anthropic Labs 发布了 Claude Design,这是一款由 Claude Opus 4.7 视觉模型驱动的新产品,允许用户与 AI 协作创建视觉设计、原型和演示文稿。
Claude Opus 4.8 于5月28日发布,其一项特性揭示了AI真正的发展方向。它现在可以将一个任务拆解为数十个并行工作流并同时运行。
Anthropic 发布了具有动态工作流(Dynamic Workflows)功能的 Claude Opus 4.8,支持并行任务执行,并改进了判断能力,可标出不确定性,从而从工具转变为协作者。
Anthropic 发布首个 Mythos 级模型 Claude Fable
Anthropic 宣布推出 Claude Fable 5,这是其迄今最强大的广泛可用 AI 模型,属于此前被认为过于危险而不得公开发布的 Mythos 系列。该模型引入了新的安全机制,在高风险领域会降级至 Opus 4.8。
Claude Mythos 开启网络安全的潘多拉魔盒
Anthropic 发布了 Claude Mythos,这是一款能力极强的 AI 模型,旨在自动发现操作系统、浏览器和软件库中的安全漏洞。出于双重用途风险的考虑,该模型最初仅通过 Project Glasswing 向部分企业和开源合作伙伴开放,此次发布引发了业界关于 AI 安全能力与企业营销策略的广泛争论。