Few:同一个模型的两个实例不会产生相同的差异

Reddit r/AI_Agents 新闻

摘要

一种观察:同一AI模型的两个实例在相同任务上可能产生不同的内部行为(例如,一个重构了共享工具而另一个没有),凸显了仅通过最终输出来审查智能体工作的挑战。

相同的任务,相同的模型,两个智能体实例,两次全新的代码检出。本以为工作会几乎一模一样,对吧?对吧?结果一个实例重构了一个没人要求它碰的共享工具,而另一个则没有动它。相同的提示,相同的权重,不同的行为。我们之所以发现,是因为我们比较了会话日志,而不是输出。输出看起来没问题。输出总是看起来没问题,这就是通过阅读最终差异来审查智能体工作的问题所在——你只看到了它产出的结果,而看不到它如何达到那里,也看不到它沿途悄悄改变的东西。
查看原文

相似文章

观察AI模型彼此意见分歧出乎意料地有用

Reddit r/AI_Agents

本文讨论了比较多个AI模型的回答如何揭示推理中的漏洞和不确定性,并提出轻量级的多模型比较作为一种有用的验证层,在复杂的智能体编排之前进行应用。