llm-judges

#llm-judges

PReMISE：将策略规则作为LLM评估者的度量规范

arXiv cs.AI ↗ · 2天前缓存

介绍了PReMISE，一个用于发现和审计LLM评估者策略级规则的框架，涵盖四个维度：结构充分性、可靠性、偏好匹配度和对抗鲁棒性。

0 人收藏 0 人点赞

#llm-judges

TLDR AI ↗ · 5天前缓存

Agent Judge 是一种智能体评估工具，通过处理长轨迹、对照事实源系统验证状态化动作以及适应行为变化，克服了简单 LLM 评判器在长周期智能体评估中的局限性。

0 人收藏 0 人点赞

#llm-judges

arXiv cs.CL ↗ · 2026-05-26 缓存

本文提出了一个因果框架，用于量化LLM评审中的合理化偏见，即判决和解释受非证据性线索而非底层文本的影响。该框架提出了线索干预、锚定度量以及Proof-Before-Preference缓解协议，展示了改进的线索不变性。

0 人收藏 0 人点赞

#llm-judges

arXiv cs.CL ↗ · 2026-05-20 缓存

本文介绍了 REFLECT，这是一个用于评估 LLM 评判者在深度研究代理评估中可靠性的元评估基准。实验表明，当前的 LLM 评判者仍然不可靠，在推理、工具使用和报告质量失败方面的整体准确率低于 55%。

0 人收藏 0 人点赞