面向口语语言处理任务的机器人-患者与医生-患者医疗对话数据集
摘要
本文介绍了MeDial-Speech,一个用于口语语言处理的机器人-患者与医生-患者医疗对话数据集,并在句子选择基准上评估了三个大型语言模型,发现Claude Sonnet 4最为准确。
arXiv:2605.26747v1 公告类型:新
摘要:**大型语言模型(LLMs)** 为人工智能(AI)带来了巨大进步,可应用于通用任务。然而,它们在文本或语音医疗咨询中的应用仍是一个开放的研究问题。本文提出了MeDial-Speech,这是一个新颖的语音数据集,用于训练和评估能够与患者进行咨询的Med-AI系统。该数据集在真实环境中从机器人-患者和医生-患者的对话中收集,包含111小时以上的语音数据(无数据增强),涵盖四种健康状况:路易体痴呆、心力衰竭、肩痛和心绞痛。此外,我们通过句子选择(20个选项)提出了一项对话基准,用于评估三个最先进的LLMs:GPT-5 mini、DeepSeek-V3和Claude Sonnet 4。实验结果表明,Claude Sonnet 4在句子选择中表现最佳,使用人工转录时准确率为71.1%,使用自动转录时准确率为74.7%。并且,无论LLMs在医疗对话中选择正确还是错误的句子,其概率预测都表现出高度过度自信。该数据集对非商业用途免费提供,网址为:https://huggingface.co/datasets/hcuayahu/MeDial-Speech
查看缓存全文
缓存时间: 2026/05/27 09:07
# 面向口语语言处理任务的机器人-患者和医生-患者医疗对话数据集 来源:https://arxiv.org/html/2605.26747 ###### 摘要 大型语言模型 (LLMs) 为人工智能 (AI) 带来了巨大进步,可应用于通用任务。然而,它们在文本或口语医疗咨询中的应用仍是一个开放的研究问题。本文提出了 MeDial-Speech (https://huggingface.co/datasets/hcuayahu/MeDial-Speech),这是一个新颖的语音数据集,用于训练和评估能够与患者进行咨询的 Med-AI。该数据集从机器人-患者和医生-患者的真实环境对话中收集,包含 111+ 小时的语音数据(未经数据增强),覆盖四种健康状况:路易体痴呆、心力衰竭、肩痛和心绞痛。此外,我们通过句子选择(20 个选项)提出一个对话基准,用于评估三种最先进的 LLMs:GPT-5 mini、DeepSeek-V3 和 Claude Sonnet 4。实验结果表明,Claude Sonnet 4 在句子选择中表现最佳,使用人工转录本时准确率为 71.1%,使用自动转录本时为 74.7%,并且所有 LLMs 在概率预测中高度过度自信,无论其在医疗对话中选择了正确还是错误的句子。该数据集对非商业用途免费提供。 索引词—医疗对话、对话式 AI、LLM 评估、问答、语音识别。 ## 1 动机 医生与患者之间的有效沟通是英国 NHS 核心价值观“致力于护理质量”的重要方面[1 (https://arxiv.org/html/2605.26747#bib.bib27)]。接触医疗咨询对于学员——无论是人类还是机器——在医疗领域提升沟通、临床推理和专业能力至关重要。本文介绍了一个新的医生-患者和机器人-患者医疗对话数据集,旨在帮助医疗 AI 和医学生在临床实习之外进行临床技能培训。此外,该数据集旨在促进自动化临床医生的开发,如图 1 (https://arxiv.org/html/2605.26747#S1.F1) 所示,使其能够管理非紧急病症。这类努力有可能减轻医疗专业人员的负担,因为人类临床医生可以将注意力转向更需要关注的患者或其他需要专注的任务。 参考图注图 1:一位演员患者正在与远程操作的机器人互动。 ## 2 先前工作 公开可用的基于语音的医疗数据集非常稀少。一些例外包括:[23 (https://arxiv.org/html/2605.26747#bib.bib7)] 使用了四名参与者,总共进行了 9 次咨询,并录制了音频和视频;[10 (https://arxiv.org/html/2605.26747#bib.bib6)] 收集并标注了 272 次人与人之间的咨询;[20 (https://arxiv.org/html/2605.26747#bib.bib17)] 报告了一个包含 57 次初级保健咨询的数据集;[4 (https://arxiv.org/html/2605.26747#bib.bib15)] 收集并标注了 327 次人与人之间的咨询;[8 (https://arxiv.org/html/2605.26747#bib.bib16)] 报告了 2000 小时的语音数据。虽然只有后两个涉及真实患者,但它们并不公开可用,需要购买。 在该领域,自动语音识别 (ASR) 方面已有努力,但语音数据要么是闭源的[6 (https://arxiv.org/html/2605.26747#bib.bib24)],要么仅来自经过数据/合成增强的人人对话[2 (https://arxiv.org/html/2605.26747#bib.bib25),16 (https://arxiv.org/html/2605.26747#bib.bib26)]。它们的词错误率在 12% 到 30% 之间,并且这些 ASR 模型尚未通过交互系统和人类参与者进行评估。据我们所知,目前没有公开可访问的、免费的口语医疗咨询数据集,同时包含人机互动和人人互动(并具有多层次标注),而这两者对于开发 AI 医生来说都很有价值。 另一方面,医疗 LLMs 是从大型基于文本的数据集训练而来的,例如 [14 (https://arxiv.org/html/2605.26747#bib.bib18),13 (https://arxiv.org/html/2605.26747#bib.bib19),11 (https://arxiv.org/html/2605.26747#bib.bib20)]。虽然它们在分类和判别任务中表现出了卓越的能力[26 (https://arxiv.org/html/2605.26747#bib.bib21),25 (https://arxiv.org/html/2605.26747#bib.bib22)],但它们并非专门用于交互式医疗咨询。尽管如此,医疗 LLMs 和基于语音的医疗数据(如本文所提出的)将在未来对话式 AI 的开发中发挥关键作用,包括用于医疗服务的机器人[24 (https://arxiv.org/html/2605.26747#bib.bib5),22 (https://arxiv.org/html/2605.26747#bib.bib8),15 (https://arxiv.org/html/2605.26747#bib.bib9),9 (https://arxiv.org/html/2605.26747#bib.bib10)]。 ## 3 数据收集系统 Pepper 机器人[19 (https://arxiv.org/html/2605.26747#bib.bib2)] 配备了一个远程操作系统,采用面对面和远程具身临场感方式。在这种设置中,远程操作员通过听到和看到机器人所感知的内容来具身于机器人身体中,并通过说出机器人向面前的人传达的内容来进行交流。这种 Wizard-of-Oz (WOZ) 设置如图 1 (https://arxiv.org/html/2605.26747#S1.F1) 所示,人类医生(远程操作员)使用与机器人和患者分开的房间。我们避免了像 [21 (https://arxiv.org/html/2605.26747#bib.bib3),5 (https://arxiv.org/html/2605.26747#bib.bib4)] 那样使用图形用户界面,以防止预定义回复,并鼓励个性化、类人的沟通。 我们没有使用远程操作员的真实语音,而是通过 Vosk (https://alphacephei.com/vosk/)(模型:vosk-model-en-us-0.22,2.6GB)进行连续语音识别,并结合 FastPunct (https://github.com/notAI-tech/fastPunct) 的自动标点以及 Acapela (https://www.acapela-group.com/) 的语音合成。这意味着当远程操作员说出一个句子时,自动语音识别会主动且无限地生成单词。每当检测到两秒的停顿,识别并生成的句子就会被自动添加标点。后者对于产生比没有标点更清晰的语音非常有用。添加标点后,会生成一个运动命令,使机器人语音与身体动作同时执行(手势:从一组 18 个预录的机器人手臂和头部动作中随机选择,这些动作与问候、解释、是、否、请相关)。 其他非语言行为包括在人类说话时进行面部追踪(以跟随患者目光)和头部点头(用于确认)。医疗医生——均为医学生——在对话期间通过面前的笔记本电脑上连续的音视频流始终能够听到和看到。该机器人系统的其他技术特性包括:(1) 音频以 16 kHz 采样率、16 位、单声道录制;(2) 音频以 44 kHz 双声道生成,TTS 系统速度为 100,音高偏移为 1.5,音量为 60%;(3) 视频为每秒 10 帧,分辨率为 640x480 像素;(4) 机器人和笔记本电脑通过以太网连接。 我们对话机器人系统的动态过程简要描述如下。远程操作员的语音通过 ASR 和标点自动转录,然后用于通过语音合成生成机器人语音。机器人语音是患者能够听到的内容,即他们从未听到过人类医生的实际语音。在咨询期间,患者的语音和视频被机器人不间断地持续捕获。这两股数据流通过耳机和笔记本电脑屏幕被人类医生近乎实时地感知。后者显示患者的视频以及医生语音的转录文本。该过程如图 1 (https://arxiv.org/html/2605.26747#S1.F1) 所示,首先指定参与者 ID,然后按 Enter 键表示咨询开始。一旦远程操作员说出“让我们继续”这句话,咨询即告终止。最后,人与人之间的咨询使用 MS Teams (https://www.microsoft.com/en-gb/microsoft-teams/group-chat-software) 进行录制。 ## 4 语音数据集 ### 4.1 数据收集 我们从 325 名招募的未付费参与者中收集数据,多数为大学生,来自不同学院(主要是 UoL (https://www.lincoln.ac.uk/) 医学和计算机科学学院),年龄类别分别为 18-24 岁(87.1%)、25-34 岁(8.9%)和 35+ 岁(4.0%)。所有参与者都是英语流利使用者,包括母语和非母语的男女参与者。每位参与者在咨询前阅读并签署了知情同意书,并审阅了任务描述和模拟患者档案。患者档案包括以下健康状况:路易体痴呆、心力衰竭、肩痛和心绞痛。由于我们的参与者是模拟患者而非真实患者,他们可以保留一份描述其患者档案的打印单页用于咨询。之后,每位参与者填写了一份包含 10 个问题的问卷(采用 5 点李克特量表)和三个开放式文本问题以进行自由评论。虽然问卷结果将单独在一篇论文中报告,比较不同版本的面对面和远程对话者,但我们提出的数据集统计信息列于表 1 (https://arxiv.org/html/2605.26747#S4.T1)。 | 总计时长(小时)| 111.4 | | --- | --- | | 总计文件大小(GB)| 12.6 | | 总计对话数 | 581 | | 总计对话轮次 | 11197 | | 总计单词数 | 264451 | | 每轮对话平均轮次数 | 22.48 | | 每轮对话平均单词数 | 531.03 | | 总计唯一单词数(含缩略形式)| 6100 | | 总计唯一医生句子数 | 7987 | | 总计唯一患者句子数 | 8206 | 表 1:拟议数据集的指示性统计。 表 2:LLM 在句子选择中的性能(使用分类和概率指标):↑=越高越好,↓=越低越好。最佳结果以粗体显示。ASR 转录仅应用于患者话语,以模拟真实世界条件。 ### 4.2 数据标注 数据已根据语音转录和说话者角色(机器人、医生、患者或无)进行标注。以下是一个示例对话:https://youtu.be/9z8KDRh_mn4,该示例使用我们自己的工具以三种版本回放咨询——根据参与的对话者类型:机器人-患者、医生-患者或医生-机器人-患者¹¹¹医疗咨询播放器是使用 .NET SDK 6.0 和 Node.js v20 或更高版本实现的本地 Web 服务器。。该数据集中的每次咨询都存储在单独的文件夹中,包含以下内容:(a) 原始音频数据,由于使用两个独立房间,存储在两个 *.wav 文件中,一个文件用于远程操作员,另一个用于机器人和患者语音;(b) 语音转录存储在一个标记为 *-3speakers.txt 的文本文件中,包含三个说话者的语音转录(对于机器人-人类咨询),否则是两个说话者(对于人类-人类咨询);(c) Audacity (https://www.audacityteam.org/) 转录存储在两个 audacity 文件 *.aup3 中,包含说话者角色的标注(每个音频文件一个),以及从这些 audacity 文件生成的文本文件,包含每个语音片段的开始和结束时间。原始音频文件被分割并存储在子文件夹中(每个说话者一个文件夹),包含咨询中每个对话轮次的音频文件。标注已经过修订,以验证文本转录中的对话轮次数是否与语音片段匹配,从而使咨询能够在上述示例对话所示的独立应用程序中回放。 ## 5 数据用途:基准测试与工具 MeDial-Speech (https://huggingface.co/datasets/hcuayahu/MeDial-Speech) 数据集可用于以下口语语言处理任务的基准测试。我们专注于提供带有参考转录和标签的数据,并将训练、验证和测试的数据划分留给用户自行决定。 1. **语音活动检测 (VAD)**。例如,可以通过随机采样语音片段来执行此任务,其中标注(语音、非语音)可以从 Audacity 转录中生成。如果一个语音片段大部分落在任何说话者(医生、机器人、患者)之内,则应将其标记为“语音”;否则标记为“非语音”。 2. **自动语音识别 (ASR)**。此任务可以通过两种方式使用感兴趣的 ASR 系统来处理:(i) 使用上一节中的音频分割,每个话语一个文件;(ii) 使用原始音频文件,每次咨询一个文件。前者将新生成的语音转录(预测文本)与该对话轮次的参考转录进行比较。后者允许在整次咨询而非单个对话轮次上进行类似的比较。 3. **对话生成**。此任务至少可以通过两种方式研究:(i) 给定上下文对话片段生成下一个回应(生成任务);(ii) 给定上下文对话从一组选项中预测下一个回应(分类任务),类似于多项选择问答或句子选择。虽然生成任务产生开放式回应,但分类任务仅从可用选项中选择最相关的回应。 4. **教育工具**。医学生和学者可以通过分析咨询对话、识别积极和消极方面来从中学习。 参考图注(a) 无噪声。 参考图注(b) 有 ASR 噪声。 图 2:评估的 LLMs 在有噪声和无噪声条件下句子选择的分布(高斯分布);详见正文。### 5.1 对话生成的基准测试结果 该基准测试将对话生成视为通过句子选择进行分类的任务。选用了三种最先进的 LLMs:GPT-5 mini[18 (https://arxiv.org/html/2605.26747#bib.bib29)]、DeepSeek V3[7 (https://arxiv.org/html/2605.26747#bib.bib30)] 和 Claude Sonnet 4[3 (https://arxiv.org/html/2605.26747#bib.bib31)]。它们在相同的提示和模板上进行了评估²²²提示模板:“考虑以下对话上下文和选项。作为 AI 医生,哪个选项在对话中最合适或最有意义?提供一个选项上的概率分布,在单行中给出选项和概率,不要其他内容。” CONTEXT: $context OPTIONS: $options.。变量 $context 从 5 到 20 个对话轮次变化(以 4 的倍数递增,即 5、9、13、17 轮次),变量 $option 包含 20 个选项——其中一个为正确选项,其余选项从数据集中所有唯一的医生句子中随机选择。这是一个具有挑战性的目标,因为每个提示中选择正确选项的概率为 1/20 = 0.05。为此任务选择了医生-患者对话的子集,最终产生了 1062 个无噪声提示和 1104 个带噪声提示。 虽然所有医生话语均使用人工转录,但带噪声对话仅在患者话语中使用 ASR 转录——通过 Faster-Whisper (https://github.com/SYSTRAN/faster-whisper) 生成。³³³本研究中使用的提示将提供以用于复现。这是为了反映现实世界的应用,即系统知道自己说了什么。
相似文章
IndicMedDialog:面向印度语言可及医疗的并行多轮医疗对话数据集
IndicMedDialog 是一个并行多轮医疗对话数据集,涵盖英语和九种印度语言,并包含一个微调模型,用于个性化症状询问。该数据集源自 MDDial,通过LLM生成的合成咨询和专家验证进行增强,支持多语言医疗AI。
长期历史感知的医疗对话合成与评估
本文介绍了一种利用大语言模型(LLMs)合成长期医疗对话数据集的框架,并创建了 MediLongChat,包含三个基准任务,用于评估医疗智能体的记忆与推理能力。实验表明,即使是最先进的 LLMs 也难以完成这些任务。
MedAction:迈向主动式多轮临床诊断大语言模型
本文介绍了 MedAction 框架,该框架通过模拟迭代式的检查开具与假设更新,训练大语言模型(LLM)进行主动的多轮临床诊断。文章提出了一个新的数据集 MedAction-32K,并展示了开源模型在医学基准测试上的最先进水平(SOTA)性能。
DraDDP:一个多模态多方对话话语解析数据集
本文介绍了DraDDP,这是首个公开的英文多模态多方对话话语解析数据集,基于美国电视剧构建,包含495个片段、6,374个话语和9.1小时的视频。基准测试表明,多模态信息有助于改善对话结构和关系类型的解析。
人机对话提升急诊诊疗的诊断准确性
本研究评估了通过与大型语言模型(LLM)的交互式对话(通过 MedSyn 系统)如何提高急诊科医生在急诊环境中的诊断准确性,结果显示住院医师在处理疑难病例时的诊断准确率有显著提升。