llm-as-a-judge

#llm-as-a-judge

@omarsar0: LLM-as-a-Judge 在约10分钟内解析

X AI KOLs Following ↗ · 2天前缓存

LLM-as-a-Judge 概念的快速介绍，解释如何构建 AI 验证器和裁判，并指出进一步学习的资源。

0 人收藏 0 人点赞

#llm-as-a-judge

LLMs判断能力是否强于生成能力？评估上下文问答中的任务不对称性、机制可解释性与可迁移性

arXiv cs.CL ↗ · 2天前缓存

本文测试了LLMs在上下文问答中判断能力优于生成能力的假设，发现在大多数基准上生成准确率超过自我评估，且评估过程对上下文的关注较少。这些发现挑战了自我评估流程中的核心假设。

0 人收藏 0 人点赞

#llm-as-a-judge

抛硬币裁判？LLM-as-a-Judge评估的可靠性与偏见

arXiv cs.CL ↗ · 2026-06-15 缓存

本文研究了LLM-as-a-Judge评估的运行间可靠性，发现平均13.6%的成对偏好会发生翻转，GPT-4o-mini存在显著的首位偏见，并建议采用多试次聚合与位置随机化。

0 人收藏 0 人点赞

#llm-as-a-judge

基于标准的强化学习中奖励黑客行为的复现、分析与检测

Hugging Face Daily Papers ↗ · 2026-06-03

本文介绍了CHERRL，一个用于研究基于标准的强化学习中奖励黑客行为的可控环境。在该环境中，可以注入LLM作为评判者的偏见，以复现和分析黑客行为。作者还探索了一种基于智能体的系统，用于从训练日志中自动检测奖励黑客行为的开始。

0 人收藏 0 人点赞

#llm-as-a-judge

面向LLM-as-a-Judge的动态评估准则生成与优化

arXiv cs.CL ↗ · 2026-06-01 缓存

本文提出了一种无需训练的方法，可以在无需人工标注的情况下自动生成细粒度的评估准则用于LLM-as-a-Judge，并进一步介绍了一种迭代微调策略，使准则生成器的性能超过更大的专有模型。

0 人收藏 0 人点赞

#llm-as-a-judge

评估使用模拟工具调用隔离不可信提示输入

arXiv cs.CL ↗ · 2026-06-01 缓存

本文评估了将不可信内容包装在模拟工具调用中是否能提高LLM对抗对抗性输入的鲁棒性，发现这并不能广泛改善，有时反而会增加攻击成功率。

0 人收藏 0 人点赞

#llm-as-a-judge

RankJudge：一个多轮LLM-as-a-Judge合成基准生成器

arXiv cs.CL ↗ · 2026-05-22 缓存

RankJudge是一个基准生成器，它创建带有注入缺陷的配对多轮对话，用于评估LLM评判者在复杂对话中正确识别更好和更差回复的能力。

0 人收藏 0 人点赞

#llm-as-a-judge

评判电路

arXiv cs.CL ↗ · 2026-05-18 缓存

本文研究了LLM-as-a-judge的内部机制，发现模型在中期到后期的多层感知机（MLP）中共享一个稀疏的潜在评估器子图，该子图处理抽象评判，而格式特定的终端分支将评判映射到输出令牌，揭示了格式导致的不一致性的原因。

0 人收藏 0 人点赞

#llm-as-a-judge

Magis-Bench: Evaluating LLMs on Magistrate-Level Legal Tasks

arXiv cs.CL ↗ · 2026-05-12 缓存

This article introduces Magis-Bench, a benchmark for evaluating large language models on magistrate-level legal tasks such as judicial reasoning and sentence drafting, using data from Brazilian judicial exams.

0 人收藏 0 人点赞

#llm-as-a-judge

@ArizePhoenix：谁来评判评估者？当你使用LLM作为评判者时，你正在信任一个模型来决定你的代理、工作流……

X AI KOLs Following ↗ · 2026-05-07

本文讨论了使用Arize Phoenix调试和评估LLM评判者所面临的挑战，Arize Phoenix通过OpenTelemetry追踪评估者运行过程，以检查决策逻辑、成本和潜在偏差。

0 人收藏 0 人点赞

llm-as-a-judge

提交意见反馈