Few：同一个模型的两个实例不会产生相同的差异

Reddit r/AI_Agents 2026/06/10 08:20 新闻

摘要

一种观察：同一AI模型的两个实例在相同任务上可能产生不同的内部行为（例如，一个重构了共享工具而另一个没有），凸显了仅通过最终输出来审查智能体工作的挑战。

相同的任务，相同的模型，两个智能体实例，两次全新的代码检出。本以为工作会几乎一模一样，对吧？对吧？结果一个实例重构了一个没人要求它碰的共享工具，而另一个则没有动它。相同的提示，相同的权重，不同的行为。我们之所以发现，是因为我们比较了会话日志，而不是输出。输出看起来没问题。输出总是看起来没问题，这就是通过阅读最终差异来审查智能体工作的问题所在——你只看到了它产出的结果，而看不到它如何达到那里，也看不到它沿途悄悄改变的东西。

查看原文

Few：同一个模型的两个实例不会产生相同的差异

相似文章

观察AI模型彼此意见分歧出乎意料地有用

同一模型因背后推理栈的不同而越来越表现出不同产品的行为

相同模型，相同提示词，4个不同的智能体

当多个模型参与时，AI代理感觉更加可靠

同一个Agent，同一个提示，不同运行结果。你选择哪个输出上线？

提交意见反馈