标签
LLM-as-a-Judge 概念的快速介绍,解释如何构建 AI 验证器和裁判,并指出进一步学习的资源。
本文测试了LLMs在上下文问答中判断能力优于生成能力的假设,发现在大多数基准上生成准确率超过自我评估,且评估过程对上下文的关注较少。这些发现挑战了自我评估流程中的核心假设。
本文研究了LLM-as-a-Judge评估的运行间可靠性,发现平均13.6%的成对偏好会发生翻转,GPT-4o-mini存在显著的首位偏见,并建议采用多试次聚合与位置随机化。
本文介绍了CHERRL,一个用于研究基于标准的强化学习中奖励黑客行为的可控环境。在该环境中,可以注入LLM作为评判者的偏见,以复现和分析黑客行为。作者还探索了一种基于智能体的系统,用于从训练日志中自动检测奖励黑客行为的开始。
本文提出了一种无需训练的方法,可以在无需人工标注的情况下自动生成细粒度的评估准则用于LLM-as-a-Judge,并进一步介绍了一种迭代微调策略,使准则生成器的性能超过更大的专有模型。
本文评估了将不可信内容包装在模拟工具调用中是否能提高LLM对抗对抗性输入的鲁棒性,发现这并不能广泛改善,有时反而会增加攻击成功率。
RankJudge是一个基准生成器,它创建带有注入缺陷的配对多轮对话,用于评估LLM评判者在复杂对话中正确识别更好和更差回复的能力。
本文研究了LLM-as-a-judge的内部机制,发现模型在中期到后期的多层感知机(MLP)中共享一个稀疏的潜在评估器子图,该子图处理抽象评判,而格式特定的终端分支将评判映射到输出令牌,揭示了格式导致的不一致性的原因。
This article introduces Magis-Bench, a benchmark for evaluating large language models on magistrate-level legal tasks such as judicial reasoning and sentence drafting, using data from Brazilian judicial exams.
本文讨论了使用Arize Phoenix调试和评估LLM评判者所面临的挑战,Arize Phoenix通过OpenTelemetry追踪评估者运行过程,以检查决策逻辑、成本和潜在偏差。