llm-judges

标签

Cards List
#llm-judges

PReMISE:将策略规则作为LLM评估者的度量规范

arXiv cs.AI · 2天前 缓存

介绍了PReMISE,一个用于发现和审计LLM评估者策略级规则的框架,涵盖四个维度:结构充分性、可靠性、偏好匹配度和对抗鲁棒性。

0 人收藏 0 人点赞
#llm-judges

Agent Judge:解决生产环境智能体的长上下文评估(10分钟阅读)

TLDR AI · 5天前 缓存

Agent Judge 是一种智能体评估工具,通过处理长轨迹、对照事实源系统验证状态化动作以及适应行为变化,克服了简单 LLM 评判器在长周期智能体评估中的局限性。

0 人收藏 0 人点赞
#llm-judges

忠实还是虚构?LLM评审中合理化偏见的因果框架

arXiv cs.CL · 2026-05-26 缓存

本文提出了一个因果框架,用于量化LLM评审中的合理化偏见,即判决和解释受非证据性线索而非底层文本的影响。该框架提出了线索干预、锚定度量以及Proof-Before-Preference缓解协议,展示了改进的线索不变性。

0 人收藏 0 人点赞
#llm-judges

是时候 REFLECT 了:我们能信任 LLM 评判者来评估基于证据的研究代理吗?

arXiv cs.CL · 2026-05-20 缓存

本文介绍了 REFLECT,这是一个用于评估 LLM 评判者在深度研究代理评估中可靠性的元评估基准。实验表明,当前的 LLM 评判者仍然不可靠,在推理、工具使用和报告质量失败方面的整体准确率低于 55%。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈