当智能体框架一半是非确定性的，你如何实际测试它？

Reddit r/AI_Agents 2026/06/16 20:25 新闻

agent-testing non-determinism llm-as-judge golden-tests software-engineering testing-practices

摘要

关于测试包含非确定性组件的AI智能体框架所面临的挑战的讨论，探讨了黄金输出差异比较和使用LLM作为评判者等方法，同时质疑这些方法的有效性。

在Lium遇到了这个问题，我很好奇其他人是怎么处理的？框架中确定性的部分很容易测试。重试逻辑、解析、路由等，都可以像普通代码一样进行单元测试。但一旦模型必须做出真正的判断，你该如何为它编写测试呢？你是检查精确输出并接受它会很脆弱，因为模型每次运行的措辞都可能不同？你使用另一个模型作为评判者，如果是这样，谁来测试评判者？你是运行五十次然后凭感觉判断是否足够正确？我首先尝试了黄金输出差异比较。即使智能体做对了，也常常失败，只是措辞不同。然后我改用LLM作为评判者一段时间，这效果更好，但我现在有了一个非确定性测试来评价一个非确定性系统，感觉这只是在将问题向上移动一层，而不是解决它。有人找到了真正有效的方法吗？大家是否已经接受智能体测试比普通软件测试更模糊，还是我遗漏了什么模式？

查看原文

当智能体框架一半是非确定性的，你如何实际测试它？

相似文章

最好的智能代理工具会这样做……

停止在不公开执行框架的情况下比较LLM智能体

你的框架辜负了你的智能体，但却没有基准来证明这一点

不是能力问题：LLM智能体层级间的控制敏感度是非单调的

面向执行轨迹的推理时对齐框架

提交意见反馈