@ArizePhoenix:谁来评判评估者?当你使用LLM作为评判者时,你正在信任一个模型来决定你的代理、工作流……

X AI KOLs Following 工具

摘要

本文讨论了使用Arize Phoenix调试和评估LLM评判者所面临的挑战,Arize Phoenix通过OpenTelemetry追踪评估者运行过程,以检查决策逻辑、成本和潜在偏差。

谁来评判评估者?当你使用LLM作为评判者时,你信任一个模型来决定你的代理、工作流或提示是否做了正确的事。但这引出了一个显而易见的问题:如何调试和评估这个评判者?在Arize Phoenix中,每次评估者运行都会通过OpenTelemetry自动追踪,并发送到一个专用的Phoenix项目。这意味着你可以精确检查你的评估者是如何做出决策的:→ 输入数据 → 发送给评判者LLM的确切提示 → 模型的推理过程 → 最终得分 → 执行时间、token用量和成本。如果你有一个生产环境中的代理,这一点尤其有用,因为你的评估也需要随之进化。检查系统性评估者偏差并使评估与人类判断保持一致变得越来越重要。就像你的代理需要随着时间的推移不断改进一样,你的评估也必须如此。
查看原文

相似文章

评判电路

arXiv cs.CL

本文研究了LLM-as-a-judge的内部机制,发现模型在中期到后期的多层感知机(MLP)中共享一个稀疏的潜在评估器子图,该子图处理抽象评判,而格式特定的终端分支将评判映射到输出令牌,揭示了格式导致的不一致性的原因。