为什么你的智能体在温度0时仍会给出不同的答案?

Reddit r/AI_Agents 新闻

摘要

将温度设置为0并不能保证智能体中的工具调用具有确定性,原因在于批处理推理会导致浮点数归约顺序发生变化,从而引发token翻转,并在负载下产生不同的动作。

如今,许多智能体设置都会遇到一个问题:人们将温度设为0,认为智能体现在是确定性的,并以此为基础构建缓存和重试机制。然而,同样的输入在周二却会产生不同的工具调用,没人能说清原因。温度0使采样变为贪心方式,但并不能让整个栈变得确定。我所见过的合理解释是批处理推理:当你的请求与其他请求共享一个批次时,浮点数归约顺序会随批次组成而改变,在接近的决策点上,这会导致顶部token翻转。在并发负载下,你无法控制自己的批次,因此也无法控制这一点。对于智能体来说,这比简单聊天影响更大,因为工具名称或参数中的翻转token不是略微不同的句子,而是不同的动作。有人在负载下真正实现了可复现的工具调用吗?还是你只能假设无法实现而进行设计?
查看原文

相似文章

智能体给出的正确答案不代表它做对了事

Reddit r/AI_Agents

本文探讨了仅根据最终答案来评估AI智能体的陷阱,强调了检查中间步骤、工具调用和推理过程以发现看似自信但实际错误的输出的重要性。文章建议使用自动评分和轨迹回放来测量并改进智能体的行为。