为什么你的智能体在温度0时仍会给出不同的答案？

Reddit r/AI_Agents 2026/06/04 01:45 新闻

temperature-0 deterministic agent tool-calls batching floating-point reproducibility

摘要

将温度设置为0并不能保证智能体中的工具调用具有确定性，原因在于批处理推理会导致浮点数归约顺序发生变化，从而引发token翻转，并在负载下产生不同的动作。

如今，许多智能体设置都会遇到一个问题：人们将温度设为0，认为智能体现在是确定性的，并以此为基础构建缓存和重试机制。然而，同样的输入在周二却会产生不同的工具调用，没人能说清原因。温度0使采样变为贪心方式，但并不能让整个栈变得确定。我所见过的合理解释是批处理推理：当你的请求与其他请求共享一个批次时，浮点数归约顺序会随批次组成而改变，在接近的决策点上，这会导致顶部token翻转。在并发负载下，你无法控制自己的批次，因此也无法控制这一点。对于智能体来说，这比简单聊天影响更大，因为工具名称或参数中的翻转token不是略微不同的句子，而是不同的动作。有人在负载下真正实现了可复现的工具调用吗？还是你只能假设无法实现而进行设计？

查看原文

为什么你的智能体在温度0时仍会给出不同的答案？

相似文章

同一个Agent，同一个提示，不同运行结果。你选择哪个输出上线？

同一个智能体、同一个任务，每次会话成本却天差地别？

你的编程代理并没有变差。你只是从未测量过第一个版本。

同一模型因背后推理栈的不同而越来越表现出不同产品的行为

智能体给出的正确答案不代表它做对了事

提交意见反馈