T2D-Bench:基于多层临床-生活方式知识图谱的2型糖尿病大语言模型输出证据门控评估

arXiv cs.AI 论文

摘要

T2D-Bench是一个基于多层临床-生活方式知识图谱的基准测试,用于评估大语言模型在2型糖尿病方面的输出。结果显示,当前大语言模型约有三分之一的情况未能通过证据路径检查。

arXiv:2606.24145v1 公告类型:新 摘要:大语言模型(LLM)能够生成临床流畅的2型糖尿病建议,但可能未能满足指南约束或明确证明与生活方式相关的血糖主张。我们提出了T2D-Bench,这是一个可复现的基准测试和证据门控评估框架,用于测试LLM输出是否满足明确的、可图检查的证据要求。T2D-Bench构建于一个多层临床-生活方式知识图谱之上,该图谱结合了生物医学主干(UMLS、DrugBank、SIDER)、可计算的ADA护理标准规则,以及通过机制桥梁连接至血糖实验室效应的生活方式知识。在涵盖诊断、用药安全及对抗性生活方式冲突的100个结构化案例中,基线输出在GPT-4o-mini上有35%的案例、在GPT-4o上有33%的案例未通过基准定义的证据路径检查。证据门检测到无依据的遗漏,并通过约束修订使输出达到验证器级别对基准定义证据要求的合规性。这些结果表明,可计算的证据约束能够使无依据的临床遗漏在糖尿病相关的LLM输出中变得明确、可测量且可纠正。
查看原文
查看缓存全文

缓存时间: 2026/06/24 07:45

# T2D-Bench:基于多层临床-生活方式知识图谱的2型糖尿病LLM输出证据门控评估

来源:https://arxiv.org/abs/2606.24145  
查看PDF (https://arxiv.org/pdf/2606.24145)

> 摘要:大型语言模型(LLMs)能为2型糖尿病生成临床流畅的建议,但可能无法满足指南约束条件,或未能明确论证与生活方式相关的血糖主张。我们提出T2D-Bench,这是一个可复现的基准测试和证据门控评估框架,用于检验LLM输出是否满足显式、可图谱检查的证据要求。T2D-Bench构建于多层临床-生活方式知识图谱之上,该图谱融合了生物医学主干(UMLS、DrugBank、SIDER)、可计算的ADA护理标准规则,以及通过机制桥梁与血糖实验室效应相连接的生活方式知识。在涵盖诊断、用药安全及对抗性生活方式冲突的100个结构化临床场景中,基线输出在GPT-4o-mini和GPT-4o上分别有35%和33%的案例未能通过基准定义的证据路径检查。该证据门控可检测出缺乏依据的遗漏,并通过约束性修订使输出达到验证器层面符合基准定义的证据要求。这些结果表明,可计算的证据约束能够使糖尿病领域LLM输出中缺乏依据的临床遗漏变得显式化、可测量且可纠正。

## 提交历史

来自:Saba Azizabadi Farahani [查看邮件 (https://arxiv.org/show-email/948c6cf8/2606.24145)]  
**[v1]** 2026年6月23日星期二 05:02:21 UTC (549 KB)

相似文章

GTBench:一个基于课程体系的图论数学研究助手大语言模型评估基准

arXiv cs.AI

论文介绍了GTBench,这是一个基于课程体系的基准,用于评估大语言模型在图论中作为数学研究助手的能力,包含63个问题,分为三个难度级别。它评估了五个前沿模型,发现性能随难度增加而下降,其中GPT-5在基础问题上近乎完美,但在研究生级别的证明上仅达到82%。

GraphInfer-Bench:在图上的LLM推理能力基准测试

arXiv cs.LG

介绍了GraphInfer-Bench,这是一个基准测试,用于评估LLMs是否能够进行图推理——生成关于节点及其邻域的开放式答案,这些答案无法从单个节点或路径中检索到。实验表明,即使是最前沿的LLMs在这些任务上也落后于普通GNNs,揭示了一个能力差距。

MedAction:迈向主动式多轮临床诊断大语言模型

arXiv cs.CL

本文介绍了 MedAction 框架,该框架通过模拟迭代式的检查开具与假设更新,训练大语言模型(LLM)进行主动的多轮临床诊断。文章提出了一个新的数据集 MedAction-32K,并展示了开源模型在医学基准测试上的最先进水平(SOTA)性能。