Few:同一个模型的两个实例不会产生相同的差异
摘要
一种观察:同一AI模型的两个实例在相同任务上可能产生不同的内部行为(例如,一个重构了共享工具而另一个没有),凸显了仅通过最终输出来审查智能体工作的挑战。
相同的任务,相同的模型,两个智能体实例,两次全新的代码检出。本以为工作会几乎一模一样,对吧?对吧?结果一个实例重构了一个没人要求它碰的共享工具,而另一个则没有动它。相同的提示,相同的权重,不同的行为。我们之所以发现,是因为我们比较了会话日志,而不是输出。输出看起来没问题。输出总是看起来没问题,这就是通过阅读最终差异来审查智能体工作的问题所在——你只看到了它产出的结果,而看不到它如何达到那里,也看不到它沿途悄悄改变的东西。
相似文章
观察AI模型彼此意见分歧出乎意料地有用
本文讨论了比较多个AI模型的回答如何揭示推理中的漏洞和不确定性,并提出轻量级的多模型比较作为一种有用的验证层,在复杂的智能体编排之前进行应用。
同一模型因背后推理栈的不同而越来越表现出不同产品的行为
文章指出,同一AI模型在不同的推理栈(如调度、量化、推测解码)下可能表现出不同的行为,尤其是在长会话或智能体工作流中,使得服务方式几乎与模型本身同样重要。
相同模型,相同提示词,4个不同的智能体
探讨了不同的智能体架构如何从相同的底层模型和提示词中产生不同的输出,强调了智能体设计对大型语言模型行为的影响。
当多个模型参与时,AI代理感觉更加可靠
探索如何使用多个AI模型进行代理工作流,揭示隐藏的不确定性和推理差距,表明未来的系统可能依赖跨模型共识而非单模型链。
同一个Agent,同一个提示,不同运行结果。你选择哪个输出上线?
作者注意到,在不同会话中用同一个Claude Code运行相同任务,会产生不同的决策模式,导致难以选择可以安全上线的输出,并指出目前缺乏评估Agent决策档案的工具。