标签
本文评估了用于测量大语言模型(LLM)越狱研究中攻击成功率(ASR)的自动化评判器的可靠性,发现安全分类器和LLM作为评判器都存在严重的校准和对抗鲁棒性问题,从而削弱了所报告的ASR数值的可信度。
AdversaBench介绍了一个自动化LLM红队测试流程,该流程使用五个变异算子和一个由三位裁判及元裁判(用于决断平局)组成的评审团来确认失败,揭示了攻击难度因类别而异,并且对抗性提示可以从较小模型迁移到较大模型。
Counsel 是首个公开的人类对 LLM 评价进行元评估的数据集,专为智能体任务设计,旨在提升自动化评估方法的校准性与可靠性。
本文介绍HistoRAG,一个将史学原则(分离的检索/生成、时间窗口、LLM作为评判者评估)转化为标准RAG架构干预的框架,应用于包含102,189篇Der Spiegel文章的语料库,以满足解释性而非事实性问答需求。
本文提出了一种基于课程大纲的LLM评判流水线,用于高风险考试备考中的自动化试题评分。该流水线利用教学大纲材料及评分指南,提升一致性与透明度。初步评估显示,其评分结果与人工导师相当。
关于测试包含非确定性组件的AI智能体框架所面临的挑战的讨论,探讨了黄金输出差异比较和使用LLM作为评判者等方法,同时质疑这些方法的有效性。
Jugmax 是一款通过分析 AI 智能体的完整执行轨迹(而非仅最终输出)来评估其性能的工具,能够识别低效、错误和浪费的 token。创始人为两个生产环境中的智能体提供免费评估,以验证他们的产品。
提出了一种随时有效的归因方法,利用人工标注的锚点集和赌博e-过程,区分LLM评估流水线中的评分偏移来自系统还是裁判,从而消除因裁判静默变更引起的歧义。
该帖子概述了一个未来智能体配方,通过微调高效、专业化的开源模型,在LLM-as-a-judge任务上超越前沿性能,并将其应用于从追踪数据中提取信号以实现持续学习。LangChain Labs 和 FireworksAI 发布了展示这一方法的新工作。
本文提出了Judge-LS,一种评估LLM-as-a-judge模型在英语和中文之间语言切换是否不变的协议。研究发现,语言切换会导致10.7%至14.4%的偏好翻转,且评判者在英语中达到最高准确率。
本文研究了多智能体辩论系统中令牌级对数概率分布、LLM-as-judge评分标准分数和最终任务准确性之间的关系。它发现了一致的四阶段置信度轨迹以及Constructor与Auditor智能体之间的角色不对称性。
POLARIS 是一套训练方案,结合 GRPO 与 LLM-as-judge 奖励机制及人类参考注入技术,旨在提升小模型的长篇故事生成能力。将其应用于 Qwen3.5-9B 后,所得到的 POLARIS-9B 模型在创意写作基准测试中达到了 Qwen3.5-27B 的水平,同时在遵循长度指令方面表现更佳。
AICompanionBench 推出了首个公开可用的基准数据集,包含 2,123 条真实 AI 伴侣对话,并按九个安全风险类别进行标注,用于评估 20 个 LLM 作为安全裁判的表现。结果显示,强模型能较好地处理显性有害内容,但在操控等细微风险的识别以及对无害对话的误判问题上仍存在明显不足。
本文从几何角度分析了为何作为裁判的LLM彼此之间高度一致,但与人类仅弱相关,发现LLM间共识在主观评分标准上反映的是坍塌子空间,而非真正的人类对齐。基于人类数据的后验校准提高了对齐,但即使经过校准的LLM也未达到人类的可靠性。
本文通过数据集整理、提示蒸馏和参数高效微调,对小型语言模型 Phi Silica 进行短文本重写的适配实证研究,结果表明针对性适配显著提升了语义保真度并减少了幻觉。
GLIDE是一个开源Python库,统一了最先进的预测驱动推断方法,用于生成式AI和智能体系统的无偏评估,能够在保证有效不确定性估计的同时节省标注成本。
本文识别出多模态LLM评判者存在的感知判断偏差,即它们倾向于过度奖励流畅但视觉错误的回答,并提出了数据集PPJD以及利用GRPO与批量排序奖励训练的模型Perception-Judge,以缓解此偏差并提升基于感知的评估质量。
本文提出了一种深度研究(Deep Research)流程,将文献搜索召回率提高了一个数量级,并论证人类引用列表并非可靠的评估基准真实标准。
本文识别了多利益相关方任务中LLM评估者的权重噪声,并提出了DecompR方法,该方法通过反事实校准的权重将效用估计从聚合中解耦。
Voxyz宣布了一项新的GBrain功能,该功能使智能体能够通过LLM作为裁判的评估和隔夜优化循环,迭代改进技能。