llm-as-a-judge

标签

Cards List
#llm-as-a-judge

@omarsar0: LLM-as-a-Judge 在约10分钟内解析

X AI KOLs Following · 2天前 缓存

LLM-as-a-Judge 概念的快速介绍,解释如何构建 AI 验证器和裁判,并指出进一步学习的资源。

0 人收藏 0 人点赞
#llm-as-a-judge

LLMs判断能力是否强于生成能力?评估上下文问答中的任务不对称性、机制可解释性与可迁移性

arXiv cs.CL · 2天前 缓存

本文测试了LLMs在上下文问答中判断能力优于生成能力的假设,发现在大多数基准上生成准确率超过自我评估,且评估过程对上下文的关注较少。这些发现挑战了自我评估流程中的核心假设。

0 人收藏 0 人点赞
#llm-as-a-judge

抛硬币裁判?LLM-as-a-Judge评估的可靠性与偏见

arXiv cs.CL · 2026-06-15 缓存

本文研究了LLM-as-a-Judge评估的运行间可靠性,发现平均13.6%的成对偏好会发生翻转,GPT-4o-mini存在显著的首位偏见,并建议采用多试次聚合与位置随机化。

0 人收藏 0 人点赞
#llm-as-a-judge

基于标准的强化学习中奖励黑客行为的复现、分析与检测

Hugging Face Daily Papers · 2026-06-03

本文介绍了CHERRL,一个用于研究基于标准的强化学习中奖励黑客行为的可控环境。在该环境中,可以注入LLM作为评判者的偏见,以复现和分析黑客行为。作者还探索了一种基于智能体的系统,用于从训练日志中自动检测奖励黑客行为的开始。

0 人收藏 0 人点赞
#llm-as-a-judge

面向LLM-as-a-Judge的动态评估准则生成与优化

arXiv cs.CL · 2026-06-01 缓存

本文提出了一种无需训练的方法,可以在无需人工标注的情况下自动生成细粒度的评估准则用于LLM-as-a-Judge,并进一步介绍了一种迭代微调策略,使准则生成器的性能超过更大的专有模型。

0 人收藏 0 人点赞
#llm-as-a-judge

评估使用模拟工具调用隔离不可信提示输入

arXiv cs.CL · 2026-06-01 缓存

本文评估了将不可信内容包装在模拟工具调用中是否能提高LLM对抗对抗性输入的鲁棒性,发现这并不能广泛改善,有时反而会增加攻击成功率。

0 人收藏 0 人点赞
#llm-as-a-judge

RankJudge:一个多轮LLM-as-a-Judge合成基准生成器

arXiv cs.CL · 2026-05-22 缓存

RankJudge是一个基准生成器,它创建带有注入缺陷的配对多轮对话,用于评估LLM评判者在复杂对话中正确识别更好和更差回复的能力。

0 人收藏 0 人点赞
#llm-as-a-judge

评判电路

arXiv cs.CL · 2026-05-18 缓存

本文研究了LLM-as-a-judge的内部机制,发现模型在中期到后期的多层感知机(MLP)中共享一个稀疏的潜在评估器子图,该子图处理抽象评判,而格式特定的终端分支将评判映射到输出令牌,揭示了格式导致的不一致性的原因。

0 人收藏 0 人点赞
#llm-as-a-judge

Magis-Bench: Evaluating LLMs on Magistrate-Level Legal Tasks

arXiv cs.CL · 2026-05-12 缓存

This article introduces Magis-Bench, a benchmark for evaluating large language models on magistrate-level legal tasks such as judicial reasoning and sentence drafting, using data from Brazilian judicial exams.

0 人收藏 0 人点赞
#llm-as-a-judge

@ArizePhoenix:谁来评判评估者?当你使用LLM作为评判者时,你正在信任一个模型来决定你的代理、工作流……

X AI KOLs Following · 2026-05-07

本文讨论了使用Arize Phoenix调试和评估LLM评判者所面临的挑战,Arize Phoenix通过OpenTelemetry追踪评估者运行过程,以检查决策逻辑、成本和潜在偏差。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈