以部署为中心的评估：预测临床LLM系统中的查询级拒绝风险

arXiv cs.AI 2026/06/12 04:00 论文

clinical-llm evaluation rejection-prediction deployment user-feedback healthcare

摘要

本文对集成在电子健康记录中的LLM系统进行了以部署为中心的评估，训练了一个分类器，利用提供者类型和科室等响应前上下文来预测查询级拒绝风险，在4.5个月的反馈中实现了0.719的AUROC。

arXiv:2606.12702v1 Announce Type: new 摘要：大型语言模型（LLMs）越来越多地集成到临床系统中，评估这些系统在实际中的效用变得至关重要。然而，静态基准往往测量正确性而非用户接受度，聚合跨查询的性能，并且需要密集标注的数据集——这导致了评估临床系统存在重大盲点。在这项工作中，我们对一个嵌入到学术医疗中心电子健康记录中的LLM系统进行了以部署为中心的评估，其中用户反馈稀疏但密切反映了部署条件。具体来说，我们训练了一个响应前分类器，根据查询内容和生成前可用的部署特定上下文，估计未来交互将导致用户拒绝LLM响应的风险。我们基于4.5个月的用户反馈对该模型进行了前瞻性分析，发现我们的预测模型达到了0.719的AUROC。此外，我们评估了这些预测在两个下游用例（护栏触发和弃权）中的收益。我们的关键概念见解是，利用部署特定上下文（即提供者类型、科室名称、用于响应的语言模型），而不是仅依靠查询内容，能够提高预测用户是否会拒绝系统输出的能力。总之，我们的实证案例研究证明了利用部署特定上下文预测用户拒绝的可行性，为有针对性的护栏打开了大门。

查看原文

查看缓存全文

缓存时间: 2026/06/12 08:53

# 以部署为中心的评估：预测临床LLM系统中查询级拒绝风险
来源：https://arxiv.org/abs/2606.12702
查看PDF（https://arxiv.org/pdf/2606.12702）

> **摘要：** 大型语言模型（LLM）正越来越多地集成到临床系统中，因此评估这些系统的实际效用至关重要。然而，静态基准通常衡量正确性而非用户接受度，聚合查询间的性能，并且需要密集标注的数据集——这导致评估临床系统时存在重大盲点。在这项工作中，我们对嵌入某学术医疗中心电子健康记录中的LLM系统进行了一次以部署为中心的评估，在此场景下用户反馈稀疏但紧密反映部署条件。具体地，我们训练了一个响应前分类器，该分类器基于查询内容和生成前可用的部署特定上下文，估计未来交互导致用户拒绝LLM响应的风险。我们对4.5个月的用户反馈进行了前瞻性分析，发现我们的预测模型达到了0.719的AUROC。此外，我们评估了此类预测在两个下游用例（护栏触发和弃权）中的益处。我们的关键概念洞察是，利用部署特定上下文（即提供者类型、科室名称、用于响应的语言模型），而非仅依赖查询内容，能够提高预测用户是否拒绝系统输出的能力。总的来说，我们的实证案例研究证明了利用部署特定上下文预测用户拒绝的可行性，为针对性护栏打开了大门。

## 提交历史

来自：Alyssa Unell [查看电子邮件（https://arxiv.org/show-email/809c42c6/2606.12702）] **\[v1\]** 2026年6月10日星期三 21:44:20 UTC（640 KB）

以部署为中心的评估：预测临床LLM系统中的查询级拒绝风险

相似文章

EHRBench：用于大语言模型临床决策的自动化可靠电子健康记录基准

一个用于医学大语言模型安全性、鲁棒性和公平性评估的多领域红队框架

面向可靠LLM判断的边际自适应置信度排序

ClinicalBench：对 MIMIC-IV 跨入院临床问答中基于断言感知的检索进行压力测试

基于预测驱动推理的统计可靠LLM排名评估

提交意见反馈