观察:每个模型的最佳代理框架将由模型开发者自身提供

Reddit r/AI_Agents 新闻

摘要

讨论人工智能模型如何在使用其自身开发者构建的框架时表现最佳,而第三方框架可能导致表现不佳,尽管基准测试成绩出色。文中引用了Claude Code(针对Claude模型)和Codex(针对GPT模型)等示例。

Claude Code适用于Claude模型,Codex适用于GPT模型,Antigravity Agent适用于Gemini模型。此前,团队们自豪地构建着能够适配任何模型的框架。然而,DeepSeek的研究人员发现,该模型在许多编程任务中表现不佳。鉴于该模型在SWE基准测试中成绩优异,这一情况并不寻常。问题似乎出在框架本身。另一个事实是,各个实验室都在用自己的框架训练模型。LLM非常擅长完成它们在训练过程中做过的事情。我很好奇,人们如何能构建出比模型开发者更好的框架?请分享你们的想法。
查看原文

相似文章

停止在不公开执行框架的情况下比较LLM智能体

arXiv cs.AI

这篇立场论文认为,在长期跨度的LLM智能体任务中,执行框架(即围绕语言模型的上下文构建、工具交互、编排和验证的基础设施层)往往比模型本身更能决定性能,而当前的基准测试错误地将框架层面的提升归因于模型改进。它提出了一种框架感知的评估框架,包含披露标准和方差分解协议。

@shao__meng: Claude Code、Cursor、Codex、Aider、Cline 部分底层模型可能完全相同,但 Agent 表现却不一样,为什么? @addyosmani 认为:是因为模型之上的那层“外壳” —— Harness,它包括「提示词、…

X AI KOLs Timeline

The article discusses how Addy Osmani argues that the performance difference between AI coding agents like Claude Code, Cursor, and Cline stems from their 'Harness'—the layer of prompts, tools, and constraints around the model—rather than the underlying model itself. It details best practices for harness engineering, including hooks, sandboxing, and context management, to bridge the gap between model capability and actual agent performance.