@akshay_pachaar: 如果你使用LLM作为评判，这篇内容就是为你准备的。（请收藏）大多数团队通过调用一个前沿…

X AI KOLs Following 2026/06/30 15:29 工具

llm-judge fine-tuning small-language-model claude-code plugin synthetic-data evaluation

摘要

详细介绍了一种训练小型LLM评判器来评估智能体输出的方法，取代了昂贵的前沿模型，并附带一个用于部署的Claude Code插件。

如果你使用LLM作为评判，这篇内容就是为你准备的。（请收藏）大多数团队通过调用一个前沿模型作为评判器来验证其智能体的输出。这种方法一开始有效，但很快会遇到问题。三个问题会迅速累积： → 成本：每次调用、每个工具调用、每个响应都要访问前沿API。在生产环境中，这会造成数百万的消耗。 → 延迟：更大的模型、远程调用、每次检查时缓慢的推理。 → 盲点：前沿模型实际上并不了解你的领域。在金融、保险或医疗健康领域，它们会遗漏你所依赖的关键词和原则。因此，我介绍了一种不同的方法：训练你自己的小型LLM评判器。你不再使用巨型模型，而是从一个小型模型开始，让系统为你生成训练数据。它分解你的领域，采样合成示例，通过一个辩论竞技场让评判器达成共识，然后对精炼后的数据集进行训练。结果是一个比Gemini、Claude或GPT更便宜、更快、更精准的评判器，并且带有一个OpenAI兼容的端点，你甚至可以本地部署。我展示了从端到端的整个过程，使用了Claude Code插件和网页界面，并以一个实际的保险RAG基础评估器为例。你可以在这里获取插件：https://github.com/plurai-ai/plurai-plugins… 以下是完整的时间点： 00:00 - 介绍 00:12 - 使用前沿LLM作为评判器的三个问题 01:05 - 另一种方法：训练你自己的小型评判器 01:31 - 工作原理（合成数据和辩论竞技场） 02:50 - 安装Claude Code插件 04:03 - 使用/eval定义你的任务 04:34 - 示例：一个保险RAG基础评估器 05:51 - 启动并提供早期反馈 06:26 - 选择标签、领域和严格程度 08:30 - 网页界面和仪表盘 09:52 - 自带示例数据（可选） 10:26 - 完成的模型：端点、准确率和速度 11:16 - 控制、本地部署和可解释性 11:57 - 与前沿模型的基准测试对比以及GitHub仓库 12:30 - 结语我与@pluraiAI团队合作完成了这个视频。感谢赞助。

查看原文

查看缓存全文

缓存时间: 2026/06/30 15:48

如果你正在使用 LLM 作为评判器，这篇文章就是为你准备的。

（请收藏）

大多数团队通过调用前沿模型作为评判器来验证其智能体的输出。这种方法起初有效，但很快会遇到问题。

三个问题迅速堆积：

→ 成本：每次交互、每次工具调用、每次响应都要调用前沿 API。在生产环境中，这会烧掉数百万。

→ 延迟：更大的模型、远程调用、每次检查都需要缓慢的推理。

→ 盲区：前沿模型实际上并不了解你的领域。在金融、保险或医疗等领域，它们会遗漏你的工作所依赖的关键词和原则。

因此，我介绍一种不同的方法：训练你自己的小型 LLM 评判器。

不是用巨型模型，而是从一个小的模型开始，让系统为你生成训练数据。它会分解你的领域，采样合成示例，在辩论竞技场中让评判者达成共识，然后在精炼的数据集上训练模型。

结果是一个成本更低、速度更快、在你的数据上比 Gemini、Claude 或 GPT 更准确的评判器，并且拥有一个兼容 OpenAI 的端点，甚至可以部署在本地。

我展示了整个过程，从端到端，使用一个 Claude Code 插件和一个 Web 界面，并以一个真实的保险 RAG 接地评估器为例。

你可以在这里获取插件：https://github.com/plurai-ai/plurai-plugins…

以下是完整的时间线：

00:00 - 介绍 00:12 - 使用前沿 LLM 作为评判器的三个问题 01:05 - 一种不同的方法：训练你自己的小型评判器 01:31 - 工作原理（合成数据和辩论竞技场） 02:50 - 安装 Claude Code 插件 04:03 - 使用 /eval 定义你的任务 04:34 - 示例：一个保险 RAG 接地评估器 05:51 - 启动并给予早期反馈 06:26 - 选择标签、领域和严格度 08:30 - Web 界面和仪表盘 09:52 - 使用你自己的示例数据（可选） 10:26 - 完成后的模型：端点、准确性和速度 11:16 - 控制、本地部署和可解释性 11:57 - 与前沿模型的基准对比和 GitHub 仓库 12:30 - 结尾

我与 @pluraiAI 团队合作完成了这个项目。感谢他们对视频的赞助。

plurai-ai/plurai-plugins

来源：https://github.com/plurai-ai/plurai-plugins

Evals & Guardrails SLM — Claude Code 插件

将简单的任务描述（或少量示例）转换为一个部署好的 SLM，用于在线评估或护栏，直接在 Claude Code 中完成。你只需写一段描述；它会处理数据生成、标注、微调和服务，几分钟内返回一个实时的 HTTPS 端点。

生成的 SLM 实时运行，延迟低于 100 毫秒，与前沿 LLM 评判器相比，延迟降低高达 93%，故障率降低 43%，成本节省 87%。该方案基于我们的 ICML 2026 研究论文 BARRED（https://arxiv.org/abs/2604.25203）。

前置要求

Claude Code
Python 3.11+ 并安装 uv（https://docs.astral.sh/uv/），确保其在你的 PATH 中
一个免费的 Plurai 账户（https://app.plurai.ai/claude?step=guide）

快速开始

1. 获取你的 API 密钥。 创建一个免费的 Plurai 账户（https://app.plurai.ai/claude?step=guide），生成密钥，并在首次运行时粘贴到 Claude 控制台。你的密钥会存储在本地（~/.config/evals/credentials.json），仅用于向 Plurai API 进行身份验证。

2. 安装 — 在任意 Claude Code 会话中按顺序运行以下命令：

/plugin marketplace add plurai-ai/plurai-plugins

/plugin install evals@plurai-plugins

/reload-plugins

VS Code / JetBrains：运行 /plugins，在 Marketplace 标签页中添加 plurai-ai/plurai-plugins，安装 evals 插件，然后重启。

3. 运行它。

/evals:eval Evaluate whether my RAG responses are grounded in the retrieved context

该插件会可选地询问一些细化问题，以更精确地定义“好”的标准，然后微调一个适合你用例的 SLM 评估器或护栏，并返回一个端点，你可以使用相同的 API 密钥调用它。

故障排除

API 密钥无效或缺失 — 插件会引导你生成一个新密钥；将其粘贴到控制台。
/evals:eval 不显示 — MCP 服务器未启动。重新加载（/reload-plugins 或重启），并确认 uv 在你的 PATH 中且 Python 版本为 3.11+。如果没有 uv，工具会静默加载失败。
请求挂起 / “网络错误：无法连接 Plurai” — 将 app.plurai.ai、api.plurai.ai、run.plurai.ai 加入白名单。

@akshay_pachaar: 如果你使用LLM作为评判，这篇内容就是为你准备的。（请收藏）大多数团队通过调用一个前沿…

plurai-ai/plurai-plugins

Evals & Guardrails SLM — Claude Code 插件

前置要求

快速开始

故障排除

相似文章

@ArizePhoenix：谁来评判评估者？当你使用LLM作为评判者时，你正在信任一个模型来决定你的代理、工作流……

Agent Judge：解决生产环境智能体的长上下文评估（10分钟阅读）

@omarsar0: LLM-as-a-Judge 在约10分钟内解析

@omarsar0: 如果你使用LLM作为评判者，这篇值得一读。（收藏它）这实际上是最有效的使用L…

Agent 评估：详细指南（53 分钟阅读）

提交意见反馈