llm-as-judge

标签

Cards List
#llm-as-judge

你的越狱评判器有多可靠?自动化ASR评分的校准与对抗鲁棒性

arXiv cs.CL · 18小时前 缓存

本文评估了用于测量大语言模型(LLM)越狱研究中攻击成功率(ASR)的自动化评判器的可靠性,发现安全分类器和LLM作为评判器都存在严重的校准和对抗鲁棒性问题,从而削弱了所报告的ASR数值的可信度。

0 人收藏 0 人点赞
#llm-as-judge

AdversaBench: 自动化LLM红队测试的多裁判确认与跨模型迁移性

arXiv cs.AI · 昨天 缓存

AdversaBench介绍了一个自动化LLM红队测试流程,该流程使用五个变异算子和一个由三位裁判及元裁判(用于决断平局)组成的评审团来确认失败,揭示了攻击难度因类别而异,并且对抗性提示可以从较小模型迁移到较大模型。

0 人收藏 0 人点赞
#llm-as-judge

Counsel:面向智能体任务的元评估数据集

Hugging Face Daily Papers · 6天前 缓存

Counsel 是首个公开的人类对 LLM 评价进行元评估的数据集,专为智能体任务设计,旨在提升自动化评估方法的校准性与可靠性。

0 人收藏 0 人点赞
#llm-as-judge

HistoRAG:通过批判性技术实践将历史方法论嵌入检索增强生成

arXiv cs.CL · 2026-06-17 缓存

本文介绍HistoRAG,一个将史学原则(分离的检索/生成、时间窗口、LLM作为评判者评估)转化为标准RAG架构干预的框架,应用于包含102,189篇Der Spiegel文章的语料库,以满足解释性而非事实性问答需求。

0 人收藏 0 人点赞
#llm-as-judge

教育中的LLM评判:基于课程大纲的评分流水线

arXiv cs.AI · 2026-06-17 缓存

本文提出了一种基于课程大纲的LLM评判流水线,用于高风险考试备考中的自动化试题评分。该流水线利用教学大纲材料及评分指南,提升一致性与透明度。初步评估显示,其评分结果与人工导师相当。

0 人收藏 0 人点赞
#llm-as-judge

当智能体框架一半是非确定性的,你如何实际测试它?

Reddit r/AI_Agents · 2026-06-16

关于测试包含非确定性组件的AI智能体框架所面临的挑战的讨论,探讨了黄金输出差异比较和使用LLM作为评判者等方法,同时质疑这些方法的有效性。

0 人收藏 0 人点赞
#llm-as-judge

我想让你看看你的智能体哪里出错了,这样我就能验证我的产品

Reddit r/AI_Agents · 2026-06-16

Jugmax 是一款通过分析 AI 智能体的完整执行轨迹(而非仅最终输出)来评估其性能的工具,能够识别低效、错误和浪费的 token。创始人为两个生产环境中的智能体提供免费评估,以验证他们的产品。

0 人收藏 0 人点赞
#llm-as-judge

谁发生了偏移:系统还是裁判?LLM评估流水线中的随时有效归因方法

arXiv cs.AI · 2026-06-16 缓存

提出了一种随时有效的归因方法,利用人工标注的锚点集和赌博e-过程,区分LLM评估流水线中的评分偏移来自系统还是裁判,从而消除因裁判静默变更引起的歧义。

0 人收藏 0 人点赞
#llm-as-judge

@Vtrivedy10: 有一个非常令人兴奋的未来智能体配方,用于构建低成本到无需计量的智能,应用于提取信…

X AI KOLs Following · 2026-06-15 缓存

该帖子概述了一个未来智能体配方,通过微调高效、专业化的开源模型,在LLM-as-a-judge任务上超越前沿性能,并将其应用于从追踪数据中提取信号以实现持续学习。LangChain Labs 和 FireworksAI 发布了展示这一方法的新工作。

0 人收藏 0 人点赞
#llm-as-judge

评判者更喜欢英语吗?评估LLM作为评判者的语言切换不变性

arXiv cs.CL · 2026-06-15 缓存

本文提出了Judge-LS,一种评估LLM-as-a-judge模型在英语和中文之间语言切换是否不变的协议。研究发现,语言切换会导致10.7%至14.4%的偏好翻转,且评判者在英语中达到最高准确率。

0 人收藏 0 人点赞
#llm-as-judge

自信的撒谎者:利用对数概率和LLM-as-Judge诊断多智能体辩论

arXiv cs.CL · 2026-06-10 缓存

本文研究了多智能体辩论系统中令牌级对数概率分布、LLM-as-judge评分标准分数和最终任务准确性之间的关系。它发现了一致的四阶段置信度轨迹以及Constructor与Auditor智能体之间的角色不对称性。

0 人收藏 0 人点赞
#llm-as-judge

POLARIS:引导小模型写长篇故事

arXiv cs.CL · 2026-06-04 缓存

POLARIS 是一套训练方案,结合 GRPO 与 LLM-as-judge 奖励机制及人类参考注入技术,旨在提升小模型的长篇故事生成能力。将其应用于 Qwen3.5-9B 后,所得到的 POLARIS-9B 模型在创意写作基准测试中达到了 Qwen3.5-27B 的水平,同时在遵循长度指令方面表现更佳。

0 人收藏 0 人点赞
#llm-as-judge

AICompanionBench:评测 LLM 作为裁判在 AI 伴侣安全领域的表现

arXiv cs.AI · 2026-06-04 缓存

AICompanionBench 推出了首个公开可用的基准数据集,包含 2,123 条真实 AI 伴侣对话,并按九个安全风险类别进行标注,用于评估 20 个 LLM 作为安全裁判的表现。结果显示,强模型能较好地处理显性有害内容,但在操控等细微风险的识别以及对无害对话的误判问题上仍存在明显不足。

0 人收藏 0 人点赞
#llm-as-judge

LLM-as-Judge的几何学:为何LLM间共识并非人类对齐

arXiv cs.CL · 2026-06-03 缓存

本文从几何角度分析了为何作为裁判的LLM彼此之间高度一致,但与人类仅弱相关,发现LLM间共识在主观评分标准上反映的是坍塌子空间,而非真正的人类对齐。基于人类数据的后验校准提高了对齐,但即使经过校准的LLM也未达到人类的可靠性。

0 人收藏 0 人点赞
#llm-as-judge

使用 Phi Silica 进行短文本重写

arXiv cs.CL · 2026-06-02 缓存

本文通过数据集整理、提示蒸馏和参数高效微调,对小型语言模型 Phi Silica 进行短文本重写的适配实证研究,结果表明针对性适配显著提升了语义保真度并减少了幻觉。

0 人收藏 0 人点赞
#llm-as-judge

工业化预测驱动推断:用于可靠GenAI与智能体系统评估的GLIDE库

arXiv cs.AI · 2026-06-01 缓存

GLIDE是一个开源Python库,统一了最先进的预测驱动推断方法,用于生成式AI和智能体系统的无偏评估,能够在保证有效不确定性估计的同时节省标注成本。

0 人收藏 0 人点赞
#llm-as-judge

通过感知扰动与奖励建模缓解多模态LLM评判中的感知判断偏差

Hugging Face Daily Papers · 2026-06-01 缓存

本文识别出多模态LLM评判者存在的感知判断偏差,即它们倾向于过度奖励流畅但视觉错误的回答,并提出了数据集PPJD以及利用GRPO与批量排序奖励训练的模型Perception-Judge,以缓解此偏差并提升基于感知的评估质量。

0 人收藏 0 人点赞
#llm-as-judge

重新思考文献搜索评估:深度研究有帮助,人类引用列表并非真实标准

arXiv cs.AI · 2026-05-29 缓存

本文提出了一种深度研究(Deep Research)流程,将文献搜索召回率提高了一个数量级,并论证人类引用列表并非可靠的评估基准真实标准。

0 人收藏 0 人点赞
#llm-as-judge

多利益相关方LLM对齐:将估计与聚合分解

arXiv cs.AI · 2026-05-27 缓存

本文识别了多利益相关方任务中LLM评估者的权重噪声,并提出了DecompR方法,该方法通过反事实校准的权重将效用估计从聚合中解耦。

0 人收藏 0 人点赞
#llm-as-judge

@Voxyz_ai: 等不及这个gbrain功能了。这是循环:智能体使用技能尝试任务 ↓ gbrain评估或LLM作为裁判…

X AI KOLs Following · 2026-05-26 缓存

Voxyz宣布了一项新的GBrain功能,该功能使智能体能够通过LLM作为裁判的评估和隔夜优化循环,迭代改进技能。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈