更好的模型:更差的工具

Simon Willison's Blog 新闻

摘要

较新的Anthropic模型(如Opus 4.8和Sonnet 5)在使用第三方编辑工具(例如Pi的工具)方面比旧模型更差,这可能是因为它们通过强化学习训练使用Claude Code的内置编辑工具,导致它们在工具调用中发明了额外的字段。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/07/05 10:28

# 更好的模型:更糟的工具 来源:https://simonwillison.net/2026/Jul/4/better-models-worse-tools/ 2026年7月4日 - 链接博客 **更好的模型:更糟的工具 (https://lucumr.pocoo.org/2026/7/4/better-models-worse-tools/)**。Armin 报告了一个在开发 Pi 时遇到的奇怪问题: > 简而言之,较新的 Claude 模型有时会使用额外的、虚构的字段来调用 Pi 的编辑工具,这些字段出现在嵌套的`edits[]`数组中。而且不是 Haiku 或小模型:是 Opus 4.8。编辑本身通常正确,但参数与 schema 不匹配——模型发明了一些不存在的键,Pi 因此拒绝工具调用并要求重试。这本身并不太令人惊讶,因为模型有时会生成格式错误的工具调用,尤其是小模型。但令我惊讶的是,这种情况在较新的 Anthropic 模型上变得更糟:Opus 4.8 和 Sonnet 5 都出现了这个问题,而较老的模型则没有。换句话说,该系列中的 SOTA 模型在处理这个特定工具 schema 方面比它们的“前辈”更差。 Armin 推测,这是因为较新的 Anthropic 模型在训练中(很可能是通过强化学习)被特别优化以更好地使用 Claude Code 内建的编辑工具。这带来了一个不幸的副作用:像 Pi 这样的其他编码工具可能会发现,它们自己的自定义编辑工具更容易被误用。 Claude 的编辑工具使用搜索与替换 (https://platform.claude.com/docs/en/agents-and-tools/tool-use/text-editor-tool#str-replace)。OpenAI 的 Codex 则采用 apply_patch 机制 (https://developers.openai.com/api/docs/guides/tools-apply-patch),OpenAI 此前曾谈到如何训练模型有效使用该工具。 这是否意味着像 Pi 这样的第三方编码工具应该实现多种编辑工具,以便能够根据用户选择的底层模型使用性能最佳的那一种?

相似文章

更好的模型:更差的工具

Hacker News Top

较新的Claude模型(Opus 4.8和Sonnet 5)在工具调用行为上表现更差,它们会在工具调用参数中发明额外的字段,导致验证失败,与旧模型相比是一种倒退。

@yibie: 推荐这篇文章,Flask 作者 Armin Ronacher 追踪 Pi 的 bug 发现了一个让人不安的事实:新版 Claude 模型(Opus 4.8、Sonnet 5)的工具调用在退化——不是变好了,是变差了。而且他找到了根因:RL…

X AI KOLs Timeline

Flask 作者 Armin Ronacher 发现新版 Claude 模型(Opus 4.8、Sonnet 5)的工具调用能力退化,根因是 RL 后训练过度适配 Claude Code 的工具 schema,导致替代工具 schema 越来越难以正确生成。文章揭示了模型在特定工具调用场景下性能不升反降的现象,对 agent 开发有重要警示。

Claude Sonnet 5 的新特性

Simon Willison's Blog

Anthropic 发布了 Claude Sonnet 5,该模型性能接近 Opus 4.8,价格更低,但采用了新的分词器,使得英文和代码的 token 数量增加约 30%,从而实际上提高了成本。

模型在软件工程领域正遭遇收益递减

Reddit r/ArtificialInteligence

一位超大规模公司的杰出工程师认为,AI 模型在软件工程任务中正遭遇收益递减,他发现 Claude 的 Fable 5 与之前的 Opus 模型之间几乎没有差别,并预测本地模型很快将提供可媲美的价值。