标签
本文介绍了PRECISE,它是预测驱动推理(Prediction-Powered Inference)的一种扩展,将少量人工标注与大量LLM判断结合,以生成无偏且方差减小的排名评估指标(如Precision@K)估计。该方法在ESCI基准测试和实际生产环境的A/B测试中进行了验证,仅使用100个人工标注就正确识别出了最佳系统变体,并通过+407 bps的销售改进得到了确认。
介绍了TADDLE,一种用于检测有缺陷的LLM生成同行评审的工具增强代理,以及一个包含50篇ICLR 2025论文的1800条评审的专家标注基准。该系统将检测分解为四个专门的分析工具,并使用两阶段半监督学习进行二元和多标签分类。