@ArizePhoenix:谁来评判评估者?当你使用LLM作为评判者时,你正在信任一个模型来决定你的代理、工作流……
摘要
本文讨论了使用Arize Phoenix调试和评估LLM评判者所面临的挑战,Arize Phoenix通过OpenTelemetry追踪评估者运行过程,以检查决策逻辑、成本和潜在偏差。
谁来评判评估者?当你使用LLM作为评判者时,你信任一个模型来决定你的代理、工作流或提示是否做了正确的事。但这引出了一个显而易见的问题:如何调试和评估这个评判者?在Arize Phoenix中,每次评估者运行都会通过OpenTelemetry自动追踪,并发送到一个专用的Phoenix项目。这意味着你可以精确检查你的评估者是如何做出决策的:→ 输入数据 → 发送给评判者LLM的确切提示 → 模型的推理过程 → 最终得分 → 执行时间、token用量和成本。如果你有一个生产环境中的代理,这一点尤其有用,因为你的评估也需要随之进化。检查系统性评估者偏差并使评估与人类判断保持一致变得越来越重要。就像你的代理需要随着时间的推移不断改进一样,你的评估也必须如此。
相似文章
@ArizePhoenix: 机器学习中最古老的教训之一,对于使用 LLM 应用仍然非常有用:不要用相同的数据进行评估……
本文讨论了使用 Arize Phoenix 开发 LLM 应用的最佳实践,特别强调了使用训练集/验证集/测试集拆分来进行诚实评估和追踪回归的重要性。
评判电路
本文研究了LLM-as-a-judge的内部机制,发现模型在中期到后期的多层感知机(MLP)中共享一个稀疏的潜在评估器子图,该子图处理抽象评判,而格式特定的终端分支将评判映射到输出令牌,揭示了格式导致的不一致性的原因。
LLMs判断能力是否强于生成能力?评估上下文问答中的任务不对称性、机制可解释性与可迁移性
本文测试了LLMs在上下文问答中判断能力优于生成能力的假设,发现在大多数基准上生成准确率超过自我评估,且评估过程对上下文的关注较少。这些发现挑战了自我评估流程中的核心假设。
是时候 REFLECT 了:我们能信任 LLM 评判者来评估基于证据的研究代理吗?
本文介绍了 REFLECT,这是一个用于评估 LLM 评判者在深度研究代理评估中可靠性的元评估基准。实验表明,当前的 LLM 评判者仍然不可靠,在推理、工具使用和报告质量失败方面的整体准确率低于 55%。
Agent 评估:详细指南(53 分钟阅读)
关于评估基于 LLM 的 Agent 系统的全面指南,涵盖基本概念、评估框架以及来自近期基准测试的案例研究。