@ArizePhoenix：谁来评判评估者？当你使用LLM作为评判者时，你正在信任一个模型来决定你的代理、工作流……

X AI KOLs Following 2026/05/07 22:03 工具

llm-as-a-judge evaluation observability debugging open-telemetry agent-evals

摘要

本文讨论了使用Arize Phoenix调试和评估LLM评判者所面临的挑战，Arize Phoenix通过OpenTelemetry追踪评估者运行过程，以检查决策逻辑、成本和潜在偏差。

谁来评判评估者？当你使用LLM作为评判者时，你信任一个模型来决定你的代理、工作流或提示是否做了正确的事。但这引出了一个显而易见的问题：如何调试和评估这个评判者？在Arize Phoenix中，每次评估者运行都会通过OpenTelemetry自动追踪，并发送到一个专用的Phoenix项目。这意味着你可以精确检查你的评估者是如何做出决策的：→ 输入数据 → 发送给评判者LLM的确切提示 → 模型的推理过程 → 最终得分 → 执行时间、token用量和成本。如果你有一个生产环境中的代理，这一点尤其有用，因为你的评估也需要随之进化。检查系统性评估者偏差并使评估与人类判断保持一致变得越来越重要。就像你的代理需要随着时间的推移不断改进一样，你的评估也必须如此。

查看原文

@ArizePhoenix：谁来评判评估者？当你使用LLM作为评判者时，你正在信任一个模型来决定你的代理、工作流……

相似文章

@ArizePhoenix: 机器学习中最古老的教训之一，对于使用 LLM 应用仍然非常有用：不要用相同的数据进行评估……

评判电路

LLMs判断能力是否强于生成能力？评估上下文问答中的任务不对称性、机制可解释性与可迁移性

是时候 REFLECT 了：我们能信任 LLM 评判者来评估基于证据的研究代理吗？

Agent 评估：详细指南（53 分钟阅读）

提交意见反馈