更好的模型：更差的工具

Simon Willison's Blog 2026/07/04 22:53 新闻

model-behavior tool-use anthropic claude pi editing-tools regression

摘要

较新的Anthropic模型（如Opus 4.8和Sonnet 5）在使用第三方编辑工具（例如Pi的工具）方面比旧模型更差，这可能是因为它们通过强化学习训练使用Claude Code的内置编辑工具，导致它们在工具调用中发明了额外的字段。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/07/05 10:28

# 更好的模型：更糟的工具来源：https://simonwillison.net/2026/Jul/4/better-models-worse-tools/ 2026年7月4日 - 链接博客 **更好的模型：更糟的工具 (https://lucumr.pocoo.org/2026/7/4/better-models-worse-tools/)**。Armin 报告了一个在开发 Pi 时遇到的奇怪问题： > 简而言之，较新的 Claude 模型有时会使用额外的、虚构的字段来调用 Pi 的编辑工具，这些字段出现在嵌套的`edits[]`数组中。而且不是 Haiku 或小模型：是 Opus 4.8。编辑本身通常正确，但参数与 schema 不匹配——模型发明了一些不存在的键，Pi 因此拒绝工具调用并要求重试。这本身并不太令人惊讶，因为模型有时会生成格式错误的工具调用，尤其是小模型。但令我惊讶的是，这种情况在较新的 Anthropic 模型上变得更糟：Opus 4.8 和 Sonnet 5 都出现了这个问题，而较老的模型则没有。换句话说，该系列中的 SOTA 模型在处理这个特定工具 schema 方面比它们的“前辈”更差。 Armin 推测，这是因为较新的 Anthropic 模型在训练中（很可能是通过强化学习）被特别优化以更好地使用 Claude Code 内建的编辑工具。这带来了一个不幸的副作用：像 Pi 这样的其他编码工具可能会发现，它们自己的自定义编辑工具更容易被误用。 Claude 的编辑工具使用搜索与替换 (https://platform.claude.com/docs/en/agents-and-tools/tool-use/text-editor-tool#str-replace)。OpenAI 的 Codex 则采用 apply_patch 机制 (https://developers.openai.com/api/docs/guides/tools-apply-patch)，OpenAI 此前曾谈到如何训练模型有效使用该工具。这是否意味着像 Pi 这样的第三方编码工具应该实现多种编辑工具，以便能够根据用户选择的底层模型使用性能最佳的那一种？

相似文章