以部署为中心的评估:预测临床LLM系统中的查询级拒绝风险

arXiv cs.AI 论文

摘要

本文对集成在电子健康记录中的LLM系统进行了以部署为中心的评估,训练了一个分类器,利用提供者类型和科室等响应前上下文来预测查询级拒绝风险,在4.5个月的反馈中实现了0.719的AUROC。

arXiv:2606.12702v1 Announce Type: new 摘要:大型语言模型(LLMs)越来越多地集成到临床系统中,评估这些系统在实际中的效用变得至关重要。然而,静态基准往往测量正确性而非用户接受度,聚合跨查询的性能,并且需要密集标注的数据集——这导致了评估临床系统存在重大盲点。在这项工作中,我们对一个嵌入到学术医疗中心电子健康记录中的LLM系统进行了以部署为中心的评估,其中用户反馈稀疏但密切反映了部署条件。具体来说,我们训练了一个响应前分类器,根据查询内容和生成前可用的部署特定上下文,估计未来交互将导致用户拒绝LLM响应的风险。我们基于4.5个月的用户反馈对该模型进行了前瞻性分析,发现我们的预测模型达到了0.719的AUROC。此外,我们评估了这些预测在两个下游用例(护栏触发和弃权)中的收益。我们的关键概念见解是,利用部署特定上下文(即提供者类型、科室名称、用于响应的语言模型),而不是仅依靠查询内容,能够提高预测用户是否会拒绝系统输出的能力。总之,我们的实证案例研究证明了利用部署特定上下文预测用户拒绝的可行性,为有针对性的护栏打开了大门。
查看原文
查看缓存全文

缓存时间: 2026/06/12 08:53

# 以部署为中心的评估:预测临床LLM系统中查询级拒绝风险
来源:https://arxiv.org/abs/2606.12702
查看PDF(https://arxiv.org/pdf/2606.12702)

> **摘要:** 大型语言模型(LLM)正越来越多地集成到临床系统中,因此评估这些系统的实际效用至关重要。然而,静态基准通常衡量正确性而非用户接受度,聚合查询间的性能,并且需要密集标注的数据集——这导致评估临床系统时存在重大盲点。在这项工作中,我们对嵌入某学术医疗中心电子健康记录中的LLM系统进行了一次以部署为中心的评估,在此场景下用户反馈稀疏但紧密反映部署条件。具体地,我们训练了一个响应前分类器,该分类器基于查询内容和生成前可用的部署特定上下文,估计未来交互导致用户拒绝LLM响应的风险。我们对4.5个月的用户反馈进行了前瞻性分析,发现我们的预测模型达到了0.719的AUROC。此外,我们评估了此类预测在两个下游用例(护栏触发和弃权)中的益处。我们的关键概念洞察是,利用部署特定上下文(即提供者类型、科室名称、用于响应的语言模型),而非仅依赖查询内容,能够提高预测用户是否拒绝系统输出的能力。总的来说,我们的实证案例研究证明了利用部署特定上下文预测用户拒绝的可行性,为针对性护栏打开了大门。

## 提交历史

来自:Alyssa Unell [查看电子邮件(https://arxiv.org/show-email/809c42c6/2606.12702)] **\[v1\]** 2026年6月10日星期三 21:44:20 UTC(640 KB)

相似文章

面向可靠LLM判断的边际自适应置信度排序

arXiv cs.LG

本文提出了一种针对LLM作为评判系统的基于边际的置信度排序方法,通过学习专用估计器来确保置信度与人类分歧风险之间的单调性,具有泛化保证,并在多个数据集上提高了排序准确性。

基于预测驱动推理的统计可靠LLM排名评估

arXiv cs.LG

本文介绍了PRECISE,它是预测驱动推理(Prediction-Powered Inference)的一种扩展,将少量人工标注与大量LLM判断结合,以生成无偏且方差减小的排名评估指标(如Precision@K)估计。该方法在ESCI基准测试和实际生产环境的A/B测试中进行了验证,仅使用100个人工标注就正确识别出了最佳系统变体,并通过+407 bps的销售改进得到了确认。