同一个Agent，同一个提示，不同运行结果。你选择哪个输出上线？

Reddit r/AI_Agents 2026/05/17 16:18 新闻

ai-agents reliability evaluation code-generation decision-making variance

摘要

作者注意到，在不同会话中用同一个Claude Code运行相同任务，会产生不同的决策模式，导致难以选择可以安全上线的输出，并指出目前缺乏评估Agent决策档案的工具。

这周我在几次不同的会话中，通过同一个Claude Code实例运行了相同的任务。不同日期，不同的上下文状态。输出结果有着显著差异。不是对错之分，而是：一次运行采取谨慎、循序渐进的步骤，每次写入前都明确检查文件；另一次运行速度更快，做了假设，生成的代码能用但包含三个未记录的行为。两次都通过了CI。问题不在于某次运行很差，而在于我没有一个原则性的方法来选择该发布哪个。我全凭感觉：选择看起来更谨慎的那次。这不是一个系统化的方法。我们有完善的工具评估输出：测试、lint工具、代码审查。但基本上没有任何工具可以评估Agent用来达成结果的决策模式。两种不同的行为特征，相同的产出形态，除非手动重放会话，否则无法区分。我不是在问评估基准或排行榜分数——那些是整体层面的信号。我指的是每个实例、每次执行的差异：这个特定的Agent实例，在这个特定的代码库上下文中，是否倾向于做出我可以认可的决定？很好奇人们发现了哪些跨越单一会话仍持续的模式。

查看原文

同一个Agent，同一个提示，不同运行结果。你选择哪个输出上线？

相似文章

相同模型，相同提示词，4个不同的智能体

Claude Code 与 OpenCode 对比：我在两者上运行了相同的智能体任务。以下是各自的不足之处。

Few：同一个模型的两个实例不会产生相同的差异

同一个智能体、同一个任务，每次会话成本却天差地别？

我们用同一个代理替换了审查代理，清除了记忆。它发现了相同的错误。

提交意见反馈