同一个Agent,同一个提示,不同运行结果。你选择哪个输出上线?

Reddit r/AI_Agents 新闻

摘要

作者注意到,在不同会话中用同一个Claude Code运行相同任务,会产生不同的决策模式,导致难以选择可以安全上线的输出,并指出目前缺乏评估Agent决策档案的工具。

这周我在几次不同的会话中,通过同一个Claude Code实例运行了相同的任务。不同日期,不同的上下文状态。输出结果有着显著差异。不是对错之分,而是:一次运行采取谨慎、循序渐进的步骤,每次写入前都明确检查文件;另一次运行速度更快,做了假设,生成的代码能用但包含三个未记录的行为。两次都通过了CI。问题不在于某次运行很差,而在于我没有一个原则性的方法来选择该发布哪个。我全凭感觉:选择看起来更谨慎的那次。这不是一个系统化的方法。我们有完善的工具评估输出:测试、lint工具、代码审查。但基本上没有任何工具可以评估Agent用来达成结果的决策模式。两种不同的行为特征,相同的产出形态,除非手动重放会话,否则无法区分。我不是在问评估基准或排行榜分数——那些是整体层面的信号。我指的是每个实例、每次执行的差异:这个特定的Agent实例,在这个特定的代码库上下文中,是否倾向于做出我可以认可的决定?很好奇人们发现了哪些跨越单一会话仍持续的模式。
查看原文

相似文章

合并你PR的智能体,尚无基准可循。

Reddit r/AI_Agents

Artificial Analysis 推出了一个编码智能体指数,该指数分别测试框架与模型的组合,强调基准测试任务与实际生产需求不同。文章认为,团队应基于自身的代码库和工作流来评估智能体配置,而非仅依赖标准化基准。

@shao__meng: Claude Code、Cursor、Codex、Aider、Cline 部分底层模型可能完全相同,但 Agent 表现却不一样,为什么? @addyosmani 认为:是因为模型之上的那层“外壳” —— Harness,它包括「提示词、…

X AI KOLs Timeline

The article discusses how Addy Osmani argues that the performance difference between AI coding agents like Claude Code, Cursor, and Cline stems from their 'Harness'—the layer of prompts, tools, and constraints around the model—rather than the underlying model itself. It details best practices for harness engineering, including hooks, sandboxing, and context management, to bridge the gap between model capability and actual agent performance.