@akshay_pachaar: 如果你使用LLM作为评判,这篇内容就是为你准备的。(请收藏)大多数团队通过调用一个前沿…
摘要
详细介绍了一种训练小型LLM评判器来评估智能体输出的方法,取代了昂贵的前沿模型,并附带一个用于部署的Claude Code插件。
查看缓存全文
缓存时间: 2026/06/30 15:48
如果你正在使用 LLM 作为评判器,这篇文章就是为你准备的。
(请收藏)
大多数团队通过调用前沿模型作为评判器来验证其智能体的输出。这种方法起初有效,但很快会遇到问题。
三个问题迅速堆积:
→ 成本:每次交互、每次工具调用、每次响应都要调用前沿 API。在生产环境中,这会烧掉数百万。
→ 延迟:更大的模型、远程调用、每次检查都需要缓慢的推理。
→ 盲区:前沿模型实际上并不了解你的领域。在金融、保险或医疗等领域,它们会遗漏你的工作所依赖的关键词和原则。
因此,我介绍一种不同的方法:训练你自己的小型 LLM 评判器。
不是用巨型模型,而是从一个小的模型开始,让系统为你生成训练数据。它会分解你的领域,采样合成示例,在辩论竞技场中让评判者达成共识,然后在精炼的数据集上训练模型。
结果是一个成本更低、速度更快、在你的数据上比 Gemini、Claude 或 GPT 更准确的评判器,并且拥有一个兼容 OpenAI 的端点,甚至可以部署在本地。
我展示了整个过程,从端到端,使用一个 Claude Code 插件和一个 Web 界面,并以一个真实的保险 RAG 接地评估器为例。
你可以在这里获取插件:https://github.com/plurai-ai/plurai-plugins…
以下是完整的时间线:
00:00 - 介绍 00:12 - 使用前沿 LLM 作为评判器的三个问题 01:05 - 一种不同的方法:训练你自己的小型评判器 01:31 - 工作原理(合成数据和辩论竞技场) 02:50 - 安装 Claude Code 插件 04:03 - 使用 /eval 定义你的任务 04:34 - 示例:一个保险 RAG 接地评估器 05:51 - 启动并给予早期反馈 06:26 - 选择标签、领域和严格度 08:30 - Web 界面和仪表盘 09:52 - 使用你自己的示例数据(可选) 10:26 - 完成后的模型:端点、准确性和速度 11:16 - 控制、本地部署和可解释性 11:57 - 与前沿模型的基准对比和 GitHub 仓库 12:30 - 结尾
我与 @pluraiAI 团队合作完成了这个项目。感谢他们对视频的赞助。
plurai-ai/plurai-plugins
来源:https://github.com/plurai-ai/plurai-plugins
Evals & Guardrails SLM — Claude Code 插件
将简单的任务描述(或少量示例)转换为一个部署好的 SLM,用于在线评估或护栏,直接在 Claude Code 中完成。你只需写一段描述;它会处理数据生成、标注、微调和服务,几分钟内返回一个实时的 HTTPS 端点。
生成的 SLM 实时运行,延迟低于 100 毫秒,与前沿 LLM 评判器相比,延迟降低高达 93%,故障率降低 43%,成本节省 87%。该方案基于我们的 ICML 2026 研究论文 BARRED(https://arxiv.org/abs/2604.25203)。
前置要求
- Claude Code
- Python 3.11+ 并安装
uv(https://docs.astral.sh/uv/),确保其在你的PATH中 - 一个免费的 Plurai 账户(https://app.plurai.ai/claude?step=guide)
快速开始
1. 获取你的 API 密钥。 创建一个免费的 Plurai 账户(https://app.plurai.ai/claude?step=guide),生成密钥,并在首次运行时粘贴到 Claude 控制台。你的密钥会存储在本地(~/.config/evals/credentials.json),仅用于向 Plurai API 进行身份验证。
2. 安装 — 在任意 Claude Code 会话中按顺序运行以下命令:
/plugin marketplace add plurai-ai/plurai-plugins
/plugin install evals@plurai-plugins
/reload-plugins
VS Code / JetBrains:运行 /plugins,在 Marketplace 标签页中添加 plurai-ai/plurai-plugins,安装 evals 插件,然后重启。
3. 运行它。
/evals:eval Evaluate whether my RAG responses are grounded in the retrieved context
该插件会可选地询问一些细化问题,以更精确地定义“好”的标准,然后微调一个适合你用例的 SLM 评估器或护栏,并返回一个端点,你可以使用相同的 API 密钥调用它。
故障排除
- API 密钥无效或缺失 — 插件会引导你生成一个新密钥;将其粘贴到控制台。
/evals:eval不显示 — MCP 服务器未启动。重新加载(/reload-plugins或重启),并确认uv在你的PATH中且 Python 版本为 3.11+。如果没有uv,工具会静默加载失败。- 请求挂起 / “网络错误:无法连接 Plurai” — 将
app.plurai.ai、api.plurai.ai、run.plurai.ai加入白名单。
相似文章
@ArizePhoenix:谁来评判评估者?当你使用LLM作为评判者时,你正在信任一个模型来决定你的代理、工作流……
本文讨论了使用Arize Phoenix调试和评估LLM评判者所面临的挑战,Arize Phoenix通过OpenTelemetry追踪评估者运行过程,以检查决策逻辑、成本和潜在偏差。
Agent Judge:解决生产环境智能体的长上下文评估(10分钟阅读)
Agent Judge 是一种智能体评估工具,通过处理长轨迹、对照事实源系统验证状态化动作以及适应行为变化,克服了简单 LLM 评判器在长周期智能体评估中的局限性。
@omarsar0: LLM-as-a-Judge 在约10分钟内解析
LLM-as-a-Judge 概念的快速介绍,解释如何构建 AI 验证器和裁判,并指出进一步学习的资源。
@omarsar0: 如果你使用LLM作为评判者,这篇值得一读。(收藏它)这实际上是最有效的使用L…
BinEval是一个新框架,它将LLM评估标准分解为原子化的二元问题,提高了可解释性,并实现了有针对性的提示优化,在事实一致性基准上取得了强劲的结果。
Agent 评估:详细指南(53 分钟阅读)
关于评估基于 LLM 的 Agent 系统的全面指南,涵盖基本概念、评估框架以及来自近期基准测试的案例研究。