标签
本文介绍了PRECISE,它是预测驱动推理(Prediction-Powered Inference)的一种扩展,将少量人工标注与大量LLM判断结合,以生成无偏且方差减小的排名评估指标(如Precision@K)估计。该方法在ESCI基准测试和实际生产环境的A/B测试中进行了验证,仅使用100个人工标注就正确识别出了最佳系统变体,并通过+407 bps的销售改进得到了确认。
本文对2018-2025年间自然语言处理领域的人类注释报告进行了大规模审计,结果显示关键细节的记录虽然随时间有所改善,但仍不一致,并为此提供了框架和建议,以改进报告质量。