更好的模型:更差的工具
摘要
较新的Anthropic模型(如Opus 4.8和Sonnet 5)在使用第三方编辑工具(例如Pi的工具)方面比旧模型更差,这可能是因为它们通过强化学习训练使用Claude Code的内置编辑工具,导致它们在工具调用中发明了额外的字段。
查看缓存全文
缓存时间: 2026/07/05 10:28
相似文章
更好的模型:更差的工具
较新的Claude模型(Opus 4.8和Sonnet 5)在工具调用行为上表现更差,它们会在工具调用参数中发明额外的字段,导致验证失败,与旧模型相比是一种倒退。
@yibie: 推荐这篇文章,Flask 作者 Armin Ronacher 追踪 Pi 的 bug 发现了一个让人不安的事实:新版 Claude 模型(Opus 4.8、Sonnet 5)的工具调用在退化——不是变好了,是变差了。而且他找到了根因:RL…
Flask 作者 Armin Ronacher 发现新版 Claude 模型(Opus 4.8、Sonnet 5)的工具调用能力退化,根因是 RL 后训练过度适配 Claude Code 的工具 schema,导致替代工具 schema 越来越难以正确生成。文章揭示了模型在特定工具调用场景下性能不升反降的现象,对 agent 开发有重要警示。
Claude Sonnet 5 的新特性
Anthropic 发布了 Claude Sonnet 5,该模型性能接近 Opus 4.8,价格更低,但采用了新的分词器,使得英文和代码的 token 数量增加约 30%,从而实际上提高了成本。
@kapicode: 我一直在使用 Claude 作为“人类”来提示 @opencode 以重建参考项目,在同一测试平台上评估了四款 LLM…
一项针对四款大语言模型(Qwen、MiniMax、GLM)的评估显示,当使用 Claude 作为 Opencode 智能体工具的提示器时,一个较小的本地模型(运行在 3090 显卡上的 Qwen 27B)在代码质量与可靠性方面表现优于更大的剪枝模型。
模型在软件工程领域正遭遇收益递减
一位超大规模公司的杰出工程师认为,AI 模型在软件工程任务中正遭遇收益递减,他发现 Claude 的 Fable 5 与之前的 Opus 模型之间几乎没有差别,并预测本地模型很快将提供可媲美的价值。