长期历史感知的医疗对话合成与评估

arXiv cs.CL 论文

摘要

本文介绍了一种利用大语言模型(LLMs)合成长期医疗对话数据集的框架,并创建了 MediLongChat,包含三个基准任务,用于评估医疗智能体的记忆与推理能力。实验表明,即使是最先进的 LLMs 也难以完成这些任务。

arXiv:2605.19766v1 公告类型:新 摘要:一个有效的医疗智能体必须能够回忆并推理患者的纵向病史。然而,缺乏具有真实长期对话时间线的数据集限制了系统性评估。真实临床文本受隐私和伦理约束,而现有基准侧重于孤立交互,未能捕捉跨会话推理。我们提出了一种利用 LLMs 合成高质量长期医疗对话的框架。我们的方法包括知识引导的三阶段分解:构建具有多样疾病和并发症轨迹的合成患者档案,为每次就诊生成多轮对话,并将它们整合成一个连贯的纵向病史数据集 MediLongChat。我们设立了三个基准任务——对话内推理、跨对话推理和综合推理——以评估医疗智能体的记忆能力。为了评估数据质量,我们引入了一个结合基于向量的指标与 LLM 作为裁判评估的多维度评估框架。具体来说,我们定义了自动度量——忠实性、连贯性和多样性——以及两个基于 LLM 的评估:正确性和真实性。基准实验表明,即使是最先进的 LLMs 也难以应对 MediLongChat。这些发现凸显了该基准的适用性,并强调了需要定制方法来推进医疗智能体。
查看原文
查看缓存全文

缓存时间: 2026/05/20 08:26

# 长程病史感知医疗对话的合成与评估
来源:https://arxiv.org/html/2605.19766
\\setcopyright

ifaamas\\acmConference\[AAMAS ’26\]Proc\. of the 25th International Conference on Autonomous Agents and Multiagent Systems \(AAMAS 2026\)May 25 – 29, 2026 Paphos, CyprusC\. Amato, L\. Dennis, V\. Mascardi, J\. Thangarajah \(eds\.\)\\copyrightyear2026\\acmYear2026\\acmDOI\\acmPrice\\acmISBN\\authornote前两位作者对本文贡献相同。\\affiliation\\institution中南民族大学\\city武汉\\country中国\\authornotemark\[1\]\\affiliation\\institution中南民族大学\\city武汉\\country中国\\authornote通讯作者\\affiliation\\institution新加坡管理大学\\city新加坡\\country新加坡\\authornotemark\[2\]\\affiliation\\institution中南民族大学\\city武汉\\country中国

###### 摘要。

一个有效的医疗智能体必须能够回忆并推理患者的长期病史。然而,缺乏具有真实长程对话时间线的数据集限制了系统的评估。真实的临床文本受限于隐私和伦理,而现有基准侧重于孤立的交互,未能捕捉跨会话的推理。我们引入了一个框架,用于使用 LLM 合成高质量、长程的医疗对话。我们的方法包括一个知识引导的分解过程,分为三个阶段:构建具有多样化疾病和并发症轨迹的合成患者档案;为每次就诊生成多轮对话;并将其整合为连贯的纵向历史数据集 MediLongChat。我们建立了三个基准任务——对话内推理、跨对话推理和综合推理——来评估医疗智能体的记忆能力。为了评估数据质量,我们引入了一个多维评估框架,结合了基于向量的指标和 LLM 作为评判者的评估。具体来说,我们定义了自动指标——忠实性、连贯性和多样性——以及两项基于 LLM 的评估:正确性和真实性。基准实验表明,即使是最先进的 LLM 也在 MediLongChat 上表现挣扎。这些发现突显了该基准的适用性,并强调了需要量身定制的方法来推进医疗智能体。

###### 关键词和短语:

医疗智能体,合成数据集,LLM,医疗对话数据集

## 1. 引言

随着大型语言模型 (LLMs) 在医疗领域的多个方面提供了显著帮助medrag;xu2019end;singhal2023large,一个核心挑战在于开发能够进行长期、连贯对话的医疗智能体。这类智能体的一个核心要求是能够解释和利用纵向患者历史——不仅仅是当前的表述,而是涉及先前症状、诊断和治疗的数月或数年的交互。我们将这些设置称为历史感知的纵向临床对话。例如,如图1 (https://arxiv.org/html/2605.19766#S1.F1) 所示,考虑一位患者现在报告持续性头痛和视力模糊。一个历史无关的智能体可能会默认诊断为偏头痛。相比之下,一个历史感知的智能体回忆起之前的乳腺癌诊断和不完整的后续影像检查,将会浮现出完全不同的诊断和安全措施。这个例子说明了一个重要观点:综合纵向推理——从沿纵向轨迹分布的事件中得出临床有效的推论——是构建安全可靠的医疗智能体的基础。

参考标题图 1. 历史感知能力对医疗智能体的重要性。历史无关模型对“头痛+视力模糊”默认为常见原因,而历史感知模型会回忆起之前的乳腺癌,从而产生不同的诊断和安全措施。尽管很重要,现有的公共基准很少强调纵向性。流行的对话语料库通常包含缺乏一致患者叙事的独立对话,而医疗问答基准则强调静态知识而非动态、上下文相关的推理jin2019pubmedqa;pal2022medmcqa。此外,收集真实的纵向对话数据在伦理和操作上都很艰巨:临床文本对隐私敏感;去标识化成本高且不完美;即使批准的语料库也经常涵盖狭窄的设置并附带严格的管理。因此,对长时域临床对话的研究仍受限于数据稀缺。

尽管合成方法缓解了数据稀缺和合规障碍kovavcevic2024identification;gonzales2023synthetic,但其质量受到三个常见瓶颈的限制:

- • 生成质量和一致性。LLM 固有的幻觉问题li2023halueval;manakul2023selfcheckgpt在医学领域尤其有害。这一问题因其在生成长对话时倾向于产生矛盾细节spataru2024know;liu2024lost而进一步加剧。此外,许多 LLM 中使用的混合专家 (MoE) 架构在生成长文本时可能表现出不稳定性,导致风格或知识深度上的不一致。
- • 上下文窗口限制。生成连续长对话的一个根本障碍是 LLM 有限的上下文窗口。虽然现在的模型支持更长的上下文,但利用其全部容量往往成本高昂,并且仍然不足以捕捉完整的患者历史。这揭示了一个更深层的未解决问题:如何架构生成过程——从单次引导传递到复杂管道——以保证长期内的叙事和逻辑连贯性。
- • 缺乏评估标准。缺乏评估合成数据本身质量的标准化方法。当前研究通常依赖有限的自动指标或小规模人工评估,缺乏一个系统且可扩展的框架来全面衡量数据集在医学准确性、长期逻辑一致性以及评估智能体能力方面的有效性。

为了解决上述挑战,本文提出了一个用于生成历史感知纵向临床对话数据集的系统化流程,以及一个用于评估的多维框架。我们方法的核心在于由结构化知识引导的任务分解。具体来说,我们首先构建疾病病例及其并发症的元数据。基于此,我们生成具有完整、多样且按时间顺序排列的医疗事件的合成患者档案。我们的任务分解方法将生成患者终身病史的复杂过程分解为可管理的步骤。通过逐步为每次临床就诊创建多轮对话,我们构建了一个长期、连贯且历史感知的医疗对话数据集 MediLongChat。

为了系统评估医疗助手的记忆和推理能力,我们引入了一个基于我们数据集的基准,包含三个专门任务:对话内推理、跨对话推理和综合推理。这些任务分别评估智能体从单次就诊中回忆信息、跨多个对话连接事件以及综合完整病史进行临床推理的能力。更重要的是,我们设计了一个全面的框架,结合自动指标和 LLM 作为评判者的方法,通过测量生成数据集的忠实性、连贯性、正确性、多样性和真实性来评估其质量。

本文的主要贡献总结如下:

- • 我们提出了一个新框架,用于合成具有显式纵向依赖性的长篇、历史感知的医疗对话,基于知识引导的任务分解,直接应对 LLM 在长内容生成中的幻觉和不一致性挑战。
- • 我们提出了一个全面的评估框架,为评估合成医疗对话数据的质量建立了新标准。
- • 我们构建了一个新的基准数据集 MediLongChat,专门设计用于评估医疗智能体在多会话对话中的纵向记忆和推理能力。

## 2. 相关工作

### 2.1 合成医疗数据集

在医疗领域,对隐私、伦理和数据稀缺日益增长的担忧导致研究者越来越倾向于使用合成或半合成数据进行模型训练和评估。NoteChatNoteChat使用多智能体框架从临床笔记生成医患对话,并结合医学逻辑控制以最小化无效输出。SynDialSynDial利用公开的 MTS-Dialogue 和 MIMIC 数据集,通过零样本提示生成对话,并在生成过程中集成反馈循环以提升对话质量。与简单提示方法相比,该方法在提取性和事实一致性方面表现出更优的性能。SynSUMsynsum连接结构化变量和临床文本用于信息提取和因果研究,采用贝叶斯网络首先生成表格变量,然后用于提示 LLM 生成相应的临床文本。Holysz 等人提出了一个多阶段生成框架,首先生成患者档案和病例背景,然后生成对话,力求提高合成数据的多样性和医学合理性。

尽管上述方法可以生成高质量的单会话对话或对话-笔记配对样本,但它们在跨轮次和跨对话推理方面仍表现出典型局限性。大多数现有数据集侧重于单一咨询对话或会话内的对话-笔记对齐,很少有数据集包含同一患者跨多个会话的纵向记录或对话历史。这在评估医疗智能体是否具备长期记忆或理解纵向患者历史的能力方面存在显著空白。

### 2.2 数据集评估

评估对话数据集和模型的质量是自然语言处理领域一个关键且长期存在的挑战。先前的工作大致可分为三类:以人为中心的评估、传统的词汇和基于向量的方法,以及最近的基于 LLM 的评估。

人工评估仍然是评估对话质量的黄金标准deriu2021survey。对于单轮对话,平均意见分或成对比较等指标被广泛使用deriu2021survey;li2016deep。然而,评估多轮对话带来了独特的挑战。标注者必须考虑整个对话历史来评估长期连贯性、一致性以及模型维持角色或遵循复杂叙事弧的能力。虽然高度可靠,但人工评估成本高、耗时长,且难以扩展,尤其对于包含数千或数百万对话的大型数据集。此外,由于对话质量的主观性,实现高标注者间一致性可能具有挑战性。

传统词汇和基于向量的指标被引入以解决人工评估的可扩展性问题。早期方法侧重于词汇重叠。诸如 BLEUpapineni2002bleu、ROUGElin2004rouge 和 METEORbanerjee2005meteor 等指标测量模型响应与一组人工编写的参考响应之间的 n-gram 相似度。虽然对于正确答案范围有限的任务有效,但这些指标不太适合多会话对话,因为其中可能存在许多不匹配参考文本的有效且新颖的响应。为了捕捉语义相似性,后来的方法采用了词嵌入和其他基于向量的技术。诸如嵌入平均或贪婪匹配rush\-etal\-2015\-greedy等指标计算生成响应与参考响应嵌入之间的余弦相似度。这些指标通过考虑同义词和语义相似的词而改进了词汇重叠。然而,它们仍难以评估对话质量的微妙方面,如事实一致性、跨多轮的长期连贯性以及长对话的整体对话流。

最近,LLM 的卓越能力使其被用作自动评估者,通常称为“LLM 作为评判者”zheng2023judging。LLM 被给予一个对话和一组指令,然后返回一个分数、排名或详细评论。这种方法有几个优点:比人工评估更快、成本更低,并且可以设计用于评估更复杂的属性,如细微差别、事实准确性和对话流。然而,基于 LLM 的评估并非没有局限性。其判断可能容易受到诸如位置偏差zheng2023judging或冗长偏差等偏差的影响。虽然 LLM 作为评判者在许多情况下已显示出与人工判断的高度相关性,但这仍是一个发展中的领域,这些方法对于复杂的多轮对话的可靠性和稳健性仍是一个活跃的研究领域。

参考标题图 2. 我们的数据集生成流程概览。阶段 1 在知识引导下构建记录;阶段 2 生成每次就诊的对话并按时间顺序拼接;阶段 3 衍生出三个任务来评估纵向记忆和推理。

## 3. MediLongChat 合成流程

我们的目标是构建一个高质量的长序列医疗对话数据集,以及一个评估医疗智能体长程记忆和推理能力的基准。如图2 (https://arxiv.org/html/2605.19766#S2.F2) 所示,该框架包括三个阶段:(1) 知识引导的患者医疗记录生成;(2) 基于任务分解的多轮对话生成;(3) 基准生成。

### 3.1 阶段 1:知识引导的患者医疗记录生成

一份医疗记录包含特定患者的完整信息。每份医疗记录由四个部分组成:个人信息、生活习惯、既往病史和附加信息。医疗记录代表了虚构但逼真的终身患者档案,因此避免了隐私问题。值得注意的是,医疗记录在生成过程中作为中间数据,并未明确包含在最终数据集中。此外,在评估基准测试中,它们对 LLM 保持隐藏。高质量的数据集始于高质量的先验知识。为了减轻医学上不正确的幻觉,我们在显式知识引导下分三步生成完整的虚构患者记录,确保医学合理性和叙事多样性。

#### 3.1.1 患者角色构建。

对于每个虚构患者,我们创建详细的患者基本信息,包括人口统计信息(例如年龄、性别、职业)、生活习惯(饮食偏好、运动频率、吸烟/饮酒史)以及附加信息,例如家族史。我们通过提示来操作化角色,显式说明这些属性——例如“久坐的年轻软件工程师”对比“营养均衡的退休教师”——以便后续的疾病轨迹在不同背景下保持可信。

#### 3.1.2 疾病与并发症元数据整理与审查。

我们编译元数据,将常见疾病与其典型并发症和时间模式联系起来。由于模型可能错误估计时间或可能性,我们纳入了有针对性的“人在回路”审查,以验证:(i)

相似文章

个人代理中长期记忆与可靠性的挑战

Reddit r/ArtificialInteligence

作者分享了构建持续性使用的个人健康代理所面临的挑战,重点讨论了长期记忆管理和可靠性问题,包括在综合多个来源的数据时出现的幻觉现象。

MedAction:迈向主动式多轮临床诊断大语言模型

arXiv cs.CL

本文介绍了 MedAction 框架,该框架通过模拟迭代式的检查开具与假设更新,训练大语言模型(LLM)进行主动的多轮临床诊断。文章提出了一个新的数据集 MedAction-32K,并展示了开源模型在医学基准测试上的最先进水平(SOTA)性能。