llm-as-judge

#llm-as-judge

你的越狱评判器有多可靠？自动化ASR评分的校准与对抗鲁棒性

arXiv cs.CL ↗ · 18小时前缓存

本文评估了用于测量大语言模型（LLM）越狱研究中攻击成功率（ASR）的自动化评判器的可靠性，发现安全分类器和LLM作为评判器都存在严重的校准和对抗鲁棒性问题，从而削弱了所报告的ASR数值的可信度。

0 人收藏 0 人点赞

#llm-as-judge

AdversaBench: 自动化LLM红队测试的多裁判确认与跨模型迁移性

arXiv cs.AI ↗ · 昨天缓存

AdversaBench介绍了一个自动化LLM红队测试流程，该流程使用五个变异算子和一个由三位裁判及元裁判（用于决断平局）组成的评审团来确认失败，揭示了攻击难度因类别而异，并且对抗性提示可以从较小模型迁移到较大模型。

0 人收藏 0 人点赞

#llm-as-judge

Counsel：面向智能体任务的元评估数据集

Hugging Face Daily Papers ↗ · 6天前缓存

Counsel 是首个公开的人类对 LLM 评价进行元评估的数据集，专为智能体任务设计，旨在提升自动化评估方法的校准性与可靠性。

0 人收藏 0 人点赞

#llm-as-judge

HistoRAG：通过批判性技术实践将历史方法论嵌入检索增强生成

arXiv cs.CL ↗ · 2026-06-17 缓存

本文介绍HistoRAG，一个将史学原则（分离的检索/生成、时间窗口、LLM作为评判者评估）转化为标准RAG架构干预的框架，应用于包含102,189篇Der Spiegel文章的语料库，以满足解释性而非事实性问答需求。

0 人收藏 0 人点赞

#llm-as-judge

教育中的LLM评判：基于课程大纲的评分流水线

arXiv cs.AI ↗ · 2026-06-17 缓存

本文提出了一种基于课程大纲的LLM评判流水线，用于高风险考试备考中的自动化试题评分。该流水线利用教学大纲材料及评分指南，提升一致性与透明度。初步评估显示，其评分结果与人工导师相当。

0 人收藏 0 人点赞

#llm-as-judge

当智能体框架一半是非确定性的，你如何实际测试它？

Reddit r/AI_Agents ↗ · 2026-06-16

关于测试包含非确定性组件的AI智能体框架所面临的挑战的讨论，探讨了黄金输出差异比较和使用LLM作为评判者等方法，同时质疑这些方法的有效性。

0 人收藏 0 人点赞

#llm-as-judge

我想让你看看你的智能体哪里出错了，这样我就能验证我的产品

Reddit r/AI_Agents ↗ · 2026-06-16

Jugmax 是一款通过分析 AI 智能体的完整执行轨迹（而非仅最终输出）来评估其性能的工具，能够识别低效、错误和浪费的 token。创始人为两个生产环境中的智能体提供免费评估，以验证他们的产品。

0 人收藏 0 人点赞

#llm-as-judge

谁发生了偏移：系统还是裁判？LLM评估流水线中的随时有效归因方法

arXiv cs.AI ↗ · 2026-06-16 缓存

提出了一种随时有效的归因方法，利用人工标注的锚点集和赌博e-过程，区分LLM评估流水线中的评分偏移来自系统还是裁判，从而消除因裁判静默变更引起的歧义。

0 人收藏 0 人点赞

#llm-as-judge

@Vtrivedy10: 有一个非常令人兴奋的未来智能体配方，用于构建低成本到无需计量的智能，应用于提取信…

X AI KOLs Following ↗ · 2026-06-15 缓存

该帖子概述了一个未来智能体配方，通过微调高效、专业化的开源模型，在LLM-as-a-judge任务上超越前沿性能，并将其应用于从追踪数据中提取信号以实现持续学习。LangChain Labs 和 FireworksAI 发布了展示这一方法的新工作。

0 人收藏 0 人点赞

#llm-as-judge

评判者更喜欢英语吗？评估LLM作为评判者的语言切换不变性

arXiv cs.CL ↗ · 2026-06-15 缓存

本文提出了Judge-LS，一种评估LLM-as-a-judge模型在英语和中文之间语言切换是否不变的协议。研究发现，语言切换会导致10.7%至14.4%的偏好翻转，且评判者在英语中达到最高准确率。

0 人收藏 0 人点赞

#llm-as-judge

自信的撒谎者：利用对数概率和LLM-as-Judge诊断多智能体辩论

arXiv cs.CL ↗ · 2026-06-10 缓存

本文研究了多智能体辩论系统中令牌级对数概率分布、LLM-as-judge评分标准分数和最终任务准确性之间的关系。它发现了一致的四阶段置信度轨迹以及Constructor与Auditor智能体之间的角色不对称性。

0 人收藏 0 人点赞

#llm-as-judge

POLARIS：引导小模型写长篇故事

arXiv cs.CL ↗ · 2026-06-04 缓存

POLARIS 是一套训练方案，结合 GRPO 与 LLM-as-judge 奖励机制及人类参考注入技术，旨在提升小模型的长篇故事生成能力。将其应用于 Qwen3.5-9B 后，所得到的 POLARIS-9B 模型在创意写作基准测试中达到了 Qwen3.5-27B 的水平，同时在遵循长度指令方面表现更佳。

0 人收藏 0 人点赞

#llm-as-judge