Claude Opus 4.8:"微小但切实的改进"
摘要
Anthropic 发布了 Claude Opus 4.8,这是对其前代产品的一次小幅增量改进,重点提升了诚实性并降低了幻觉率,同时还引入了新功能,如对话中系统消息和更低的提示缓存最小值。
暂无内容
查看缓存全文
缓存时间: 2026/05/29 03:00
# Claude Opus 4.8:“微小但切实的改进”
来源:https://simonwillison.net/2026/May/28/claude-opus-4-8/
2026年5月28日
Anthropic 今天发布了 Claude Opus 4.8(https://www.anthropic.com/news/claude-opus-4-8)。我最喜欢的是发布公告中的这段话:
> 用户会发现 Opus 4.8 相比前代是一个微小但切实的改进。我们还有很多工作要做:我们正在努力开发和发布能够以更低成本提供与 Opus 同等许多能力的模型。
看到一家人工智能实验室诚实地将一次发布描述为相对于前代模型的微小增量改进,真是令人耳目一新!
诚实似乎是这里的主题。以下是该公告中我另一段最喜欢的文字:
> Opus 4.8 最显著的改进之一是其*诚实性*。我们训练所有模型都要诚实——例如,避免做出它们无法支持的主张。但 AI 模型的一个普遍问题是,它们有时会草率下结论,自信地声称自己在工作中取得了进展,尽管证据不足。早期测试者报告说,Opus 4.8 更倾向于标记其工作中的不确定性,并且不太可能做出无依据的主张。这一点在我们的评估(https://www.anthropic.com/claude-opus-4-8-system-card)中得到了证实,评估显示 Opus 4.8 在其编写的代码中放任缺陷而未加评注的可能性比前代产品低约四倍。
那个链接的系统卡片包含以下内容:
> Claude Opus 4.8 在所有六款模型的每个基准测试中都具有最低的错误率——这是对事实性幻觉最直接的衡量。它主要通过在对不确定的问题上弃权来实现这一点,而不是通过正确地回答更多问题。
#### 模型特性
与 4.7 相比变化不大。
价格与 Opus 4.5/4.6/4.7 相同——输入 $5/百万 tokens,输出 $25/百万 tokens。“快速模式”价格是两倍,这比他们之前的模型有显著降低——4.6/4.7 上的快速模式仍然是 $30/$150。请注意,快速模式(https://platform.claude.com/docs/en/build-with-claude/fast-mode)仅适用于参与研究预览的组织,“请联系您的客户经理申请访问权限”。
可靠的知识截止日期和训练数据截止日期都是 2026 年 1 月,与 4.7 相同。
上下文窗口仍然是 1,000,000 tokens,最大输出为 128,000 tokens。
Claude Opus 4.8 新特性(https://platform.claude.com/docs/en/about-claude/models/whats-new-claude-4-8)文档包含一些更有趣的细节。这些引起了我的注意:
> **对话中的系统消息**。Claude Opus 4.8 接受在 `messages` 数组中的用户回合之后立即发送 `role: "system"` 消息(受位置规则(https://platform.claude.com/docs/en/build-with-claude/mid-conversation-system-messages#limitations)限制)。这允许您在长时间对话的后期追加更新指令,而无需重复完整的系统提示,这样可以保留对较早回合的提示缓存(https://platform.claude.com/docs/en/build-with-claude/prompt-caching)命中,并降低代理循环的输入成本。
另请参阅 Anthropic Python SDK 的这次更新(https://github.com/anthropics/anthropic-sdk-python/commit/2b826760101664ef89db42132932f53ba97c894d#diff-a947c9c02eab58e8ddbe799a11832d533836d242e07c7251997f8543f0981f2f)。能够在对话中途引导系统提示听起来非常强大。我担心这会与我自己的 LLM 库(https://llm.datasette.io/en/stable/python-api.html#system-prompts)提供的抽象不兼容,后者期望每个对话只有一个系统提示……但事实证明,我最近的重设计(https://simonwillison.net/2026/Apr/29/llm/)应该可以很好地处理这个问题(https://github.com/simonw/llm-anthropic/issues/73)。
> **更低的提示缓存最小值**。Claude Opus 4.8 的最小可缓存提示长度为 1,024 tokens,低于 Claude Opus 4.7。
我查了一下,4.7 的最小值是 4,096(https://platform.claude.com/docs/en/build-with-claude/prompt-caching#cache-limitations)。
#### 还有一些鹈鹕
以下是五种思考级别 `low`、`medium`、`high`、`xhigh` 和 `max` 对应的骑自行车的鹈鹕(https://tools.simonwillison.net/markdown-svg-renderer#url=https%3A%2F%2Fgist.github.com%2Fsimonw%2Ffea4f7546626d627862dc241a4e3a86a):
这次我使用 LLM CLI(https://llm.datasette.io/en/stable/usage.html)运行它们,将日志导出为 Markdown,然后让 Claude Opus 4.8 为我构建(https://github.com/simonw/tools/commit/71e4944766b577a327ff048cc63b739ba4cbade9)一个 HTML 工具,可以将该 Markdown 中带有 `svg` 围栏代码块的内容在页面上显示为 SVG。
(后来我让 GPT-5.5 xhigh 在 Codex 中更新了那段代码(https://gist.github.com/simonw/bb5a267f8144dfe4e92e50a014e49e98),去除了任何 XSS 漏洞。我相信如果我要求的话,Claude 也能做到,但 GPT-5.5 目前是我的代码安全毯。)
`max` 的那张明显是最好的,但它消耗了 25 个输入 token 和 17,167 个输出 token,总成本为 43 美分(https://www.llm-prices.com/#it=25&ot=17167&ic=5&oc=25&sel=claude-opus-4-5)!
相似文章
推出 Claude Opus 4.6
Anthropic 宣布推出 Claude Opus 4.6,这是其最强大模型的升级版本,旨在提供更好的规划能力、更长的任务记忆以及更高的自主性。
Claude Opus 4.6 与 4.7 系统提示的变更
Anthropic 发布了 Claude Opus 4.7,系统提示有显著变化,包括扩展的儿童安全指令、新的工具集成(Claude 在 PowerPoint、Chrome、Excel 中),以及行为调整以减少冗长并提高任务完成度,避免不必要的说明。
Claude Opus 4.7 正式发布
Anthropic 发布了 Claude Opus 4.7,这是一款全新的 AI 模型,在高级软件工程、视觉能力和自我验证方面实现了显著提升。该版本包含专门的安全防护措施,现已通过 API 及主要云服务商提供。
“@mfpiccolo: Opus 4.8 已发布。以下是 @iiidevs 首席工程师的结论:进行了压力测试,它只是另一个无法真正理解……的语言模型”
Anthropic 发布了 Claude Opus 4.8,这是对 Opus 4.7 的增量更新,具有更精准的判断力和更长的自主工作能力,不过一些工程师对其在缺乏广泛指导下的代码生成能力仍持怀疑态度。
Claude Opus 4.8:系统卡(阅读时间40分钟)
深度分析Anthropic的Claude Opus 4.8系统卡,详细阐述了相较Opus 4.7在能力、安全评估和对齐风险方面的增量改进。