prediction-powered-inference

标签

Cards List
#prediction-powered-inference

基于预测驱动推理的统计可靠LLM排名评估

arXiv cs.LG · 4天前 缓存

本文介绍了PRECISE,它是预测驱动推理(Prediction-Powered Inference)的一种扩展,将少量人工标注与大量LLM判断结合,以生成无偏且方差减小的排名评估指标(如Precision@K)估计。该方法在ESCI基准测试和实际生产环境的A/B测试中进行了验证,仅使用100个人工标注就正确识别出了最佳系统变体,并通过+407 bps的销售改进得到了确认。

0 人收藏 0 人点赞
#prediction-powered-inference

工业化预测驱动推断:用于可靠GenAI与智能体系统评估的GLIDE库

arXiv cs.AI · 2026-06-01 缓存

GLIDE是一个开源Python库,统一了最先进的预测驱动推断方法,用于生成式AI和智能体系统的无偏评估,能够在保证有效不确定性估计的同时节省标注成本。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈