标签
本文提出了一种两阶段抽样设计,其中LLM评估用于增强而非替代人工评分,并利用缺失数据文献中的双重稳健估计量,提供了确定人工和LLM评审样本量的指导。
本文介绍了Omni-DuplexEval,这是一个用于多模态大语言模型中实时双工交互的基准测试和自动评估框架,旨在评估流式场景下的连续响应生成和主动事件检测。
审计生产级客服RAG系统的实际发现:启发式评估器给出虚假信号,检索错误常伪装为LLM失败,成本与质量的帕累托前沿往往不在预期位置。模型扫查显示,用Gemma 4 26B替换原有模型(Gemini Flash Lite Preview)可在成本降低79%的同时实现19%的质量提升。
本文研究了用于临床序数评分(画钟测试)的多模态LLM中的中央趋势偏差。研究发现,LLM将预测结果向量表中间压缩,对关键极端值造成不成比例的影响。该研究将LLM作为裁判的偏差文献扩展到临床评估领域,强调在部署前需要进行校准感知评估。
本文介绍了从LLM代理视角对网页信息密度进行的实证测量,使用了涵盖五个类别的100个URL的精选基准。研究发现,结构化提取平均减少了71.5%的令牌数量,同时保持了答案质量,并揭示了Claude Code中一个未记录的压缩层。
本研究分析了评分标准(rubrics)的修改(例如从整体性标准转变为分析性标准)如何影响人类评分者与 AI 自动评分者之间的一致性。研究结果表明,提供示例和减少偏见有助于提高一致性,而更高的复杂性往往会降低一致性。
PNNL 与华盛顿大学的研究人员提出一套系统化框架,测试五种大语言模型在文档中捕捉细微语义变化的能力,揭示位置偏差、上下文连贯效应及模型特有的评分“指纹”。