T2D-Bench：基于多层临床-生活方式知识图谱的2型糖尿病大语言模型输出证据门控评估

arXiv cs.AI 2026/06/24 04:00 论文

摘要

T2D-Bench是一个基于多层临床-生活方式知识图谱的基准测试，用于评估大语言模型在2型糖尿病方面的输出。结果显示，当前大语言模型约有三分之一的情况未能通过证据路径检查。

arXiv:2606.24145v1 公告类型：新摘要：大语言模型（LLM）能够生成临床流畅的2型糖尿病建议，但可能未能满足指南约束或明确证明与生活方式相关的血糖主张。我们提出了T2D-Bench，这是一个可复现的基准测试和证据门控评估框架，用于测试LLM输出是否满足明确的、可图检查的证据要求。T2D-Bench构建于一个多层临床-生活方式知识图谱之上，该图谱结合了生物医学主干（UMLS、DrugBank、SIDER）、可计算的ADA护理标准规则，以及通过机制桥梁连接至血糖实验室效应的生活方式知识。在涵盖诊断、用药安全及对抗性生活方式冲突的100个结构化案例中，基线输出在GPT-4o-mini上有35%的案例、在GPT-4o上有33%的案例未通过基准定义的证据路径检查。证据门检测到无依据的遗漏，并通过约束修订使输出达到验证器级别对基准定义证据要求的合规性。这些结果表明，可计算的证据约束能够使无依据的临床遗漏在糖尿病相关的LLM输出中变得明确、可测量且可纠正。

查看原文

查看缓存全文

缓存时间: 2026/06/24 07:45

# T2D-Bench：基于多层临床-生活方式知识图谱的2型糖尿病LLM输出证据门控评估

来源：https://arxiv.org/abs/2606.24145  
查看PDF (https://arxiv.org/pdf/2606.24145)

> 摘要：大型语言模型（LLMs）能为2型糖尿病生成临床流畅的建议，但可能无法满足指南约束条件，或未能明确论证与生活方式相关的血糖主张。我们提出T2D-Bench，这是一个可复现的基准测试和证据门控评估框架，用于检验LLM输出是否满足显式、可图谱检查的证据要求。T2D-Bench构建于多层临床-生活方式知识图谱之上，该图谱融合了生物医学主干（UMLS、DrugBank、SIDER）、可计算的ADA护理标准规则，以及通过机制桥梁与血糖实验室效应相连接的生活方式知识。在涵盖诊断、用药安全及对抗性生活方式冲突的100个结构化临床场景中，基线输出在GPT-4o-mini和GPT-4o上分别有35%和33%的案例未能通过基准定义的证据路径检查。该证据门控可检测出缺乏依据的遗漏，并通过约束性修订使输出达到验证器层面符合基准定义的证据要求。这些结果表明，可计算的证据约束能够使糖尿病领域LLM输出中缺乏依据的临床遗漏变得显式化、可测量且可纠正。

## 提交历史

来自：Saba Azizabadi Farahani [查看邮件 (https://arxiv.org/show-email/948c6cf8/2606.24145)]  
**[v1]** 2026年6月23日星期二 05:02:21 UTC (549 KB)

T2D-Bench：基于多层临床-生活方式知识图谱的2型糖尿病大语言模型输出证据门控评估

相似文章

EHRBench：用于大语言模型临床决策的自动化可靠电子健康记录基准

GTBench：一个基于课程体系的图论数学研究助手大语言模型评估基准

GraphInfer-Bench：在图上的LLM推理能力基准测试

用于生物医学声明验证的小型LLM：经济高效的微调、结构化数据集捷径与跨域泛化

MedAction：迈向主动式多轮临床诊断大语言模型

提交意见反馈