观察：每个模型的最佳代理框架将由模型开发者自身提供

Reddit r/AI_Agents 2026/06/01 23:07 新闻

agent-harness model-training coding-benchmark deepseek claude-code codex antigravity-agent

摘要

讨论人工智能模型如何在使用其自身开发者构建的框架时表现最佳，而第三方框架可能导致表现不佳，尽管基准测试成绩出色。文中引用了Claude Code（针对Claude模型）和Codex（针对GPT模型）等示例。

Claude Code适用于Claude模型，Codex适用于GPT模型，Antigravity Agent适用于Gemini模型。此前，团队们自豪地构建着能够适配任何模型的框架。然而，DeepSeek的研究人员发现，该模型在许多编程任务中表现不佳。鉴于该模型在SWE基准测试中成绩优异，这一情况并不寻常。问题似乎出在框架本身。另一个事实是，各个实验室都在用自己的框架训练模型。LLM非常擅长完成它们在训练过程中做过的事情。我很好奇，人们如何能构建出比模型开发者更好的框架？请分享你们的想法。

查看原文

观察：每个模型的最佳代理框架将由模型开发者自身提供

相似文章

@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2074130508833845396

@sydneyrunkle: 假设智能体 = 模型 + 工具套件。不幸的是，好的模型越来越贵！所以你需要一个出色的工具套件来…

同一模型，不同框架：性能波动高达30-50个百分点。但团队依然仅凭模型名称来挑选智能体。

Own the Loop：Agent Harnesses 现场指南（5分钟阅读）

你的框架辜负了你的智能体，但却没有基准来证明这一点

提交意见反馈