llm-as-judge

标签

Cards List
#llm-as-judge

用LLM评审员增强人工评估:你需要多少人工审核?

arXiv cs.LG · 2026-05-19 缓存

本文提出了一种两阶段抽样设计,其中LLM评估用于增强而非替代人工评分,并利用缺失数据文献中的双重稳健估计量,提供了确定人工和LLM评审样本量的指导。

0 人收藏 0 人点赞
#llm-as-judge

Omni-DuplexEval: 评估实时双工全模态交互

Hugging Face Daily Papers · 2026-05-17 缓存

本文介绍了Omni-DuplexEval,这是一个用于多模态大语言模型中实时双工交互的基准测试和自动评估框架,旨在评估流式场景下的连续响应生成和主动事件检测。

0 人收藏 0 人点赞
#llm-as-judge

评估客服聊天代理系统的笔记:启发式评估器给出虚假信号,检索错误伪装成LLM失败,成本/质量的帕累托前沿往往不在你想的地方 [D]

Reddit r/MachineLearning · 2026-05-15

审计生产级客服RAG系统的实际发现:启发式评估器给出虚假信号,检索错误常伪装为LLM失败,成本与质量的帕累托前沿往往不在预期位置。模型扫查显示,用Gemma 4 26B替换原有模型(Gemini Flash Lite Preview)可在成本降低79%的同时实现19%的质量提升。

0 人收藏 0 人点赞
#llm-as-judge

审计多模态LLM评分器:临床序数评分中的中央趋势偏差

Hugging Face Daily Papers · 2026-05-11 缓存

本文研究了用于临床序数评分(画钟测试)的多模态LLM中的中央趋势偏差。研究发现,LLM将预测结果向量表中间压缩,对关键极端值造成不成比例的影响。该研究将LLM作为裁判的偏差文献扩展到临床评估领域,强调在部署前需要进行校准感知评估。

0 人收藏 0 人点赞
#llm-as-judge

从LLM代理视角测量网页信息密度 [R]

Reddit r/MachineLearning · 2026-05-08

本文介绍了从LLM代理视角对网页信息密度进行的实证测量,使用了涵盖五个类别的100个URL的精选基准。研究发现,结构化提取平均减少了71.5%的令牌数量,同时保持了答案质量,并揭示了Claude Code中一个未记录的压缩层。

0 人收藏 0 人点赞
#llm-as-judge

量化评分标准修改对人类与自动评分者一致性影响的统计分析

arXiv cs.CL · 2026-05-08 缓存

本研究分析了评分标准(rubrics)的修改(例如从整体性标准转变为分析性标准)如何影响人类评分者与 AI 自动评分者之间的一致性。研究结果表明,提供示例和减少偏见有助于提高一致性,而更高的复杂性往往会降低一致性。

0 人收藏 0 人点赞
#llm-as-judge

文档草垛中的语义针:LLM-as-a-Judge 相似度评分的敏感性测试

arXiv cs.CL · 2026-04-22 缓存

PNNL 与华盛顿大学的研究人员提出一套系统化框架,测试五种大语言模型在文档中捕捉细微语义变化的能力,揭示位置偏差、上下文连贯效应及模型特有的评分“指纹”。

0 人收藏 0 人点赞
← Previous
← 返回首页

提交意见反馈