IndicMedDialog:面向印度语言可及医疗的并行多轮医疗对话数据集

Hugging Face Daily Papers 论文

摘要

IndicMedDialog 是一个并行多轮医疗对话数据集,涵盖英语和九种印度语言,并包含一个微调模型,用于个性化症状询问。该数据集源自 MDDial,通过LLM生成的合成咨询和专家验证进行增强,支持多语言医疗AI。

现有的大多数医疗对话系统采用单轮问答范式或依赖基于模板的数据集,限制了对话的真实感和多语言适用性。我们引入了 IndicMedDialog,这是一个并行多轮医疗对话数据集,涵盖英语和九种印度语言:阿萨姆语、孟加拉语、古吉拉特语、印地语、马拉地语、旁遮普语、泰米尔语、泰卢固语和乌尔都语。该数据集通过LLM生成的合成咨询扩展了MDDial,使用TranslateGemma进行翻译,由母语者验证,并通过脚本感知的后处理流水线进行优化,以纠正语音、词汇和字符间距错误。基于该数据集,我们通过对量化的小语言模型进行参数高效微调来微调IndicMedLM,并融入可选的患者预上下文以个性化多轮症状询问。我们针对零样本多语言基线进行了评估,在十种语言中进行了系统错误分析,并通过医学专家评估验证了临床合理性。
查看原文
查看缓存全文

缓存时间: 2026/05/14 20:20

论文页面 - IndicMedDialog:面向印度语言可及医疗服务的并行多轮医疗对话数据集

来源:https://huggingface.co/papers/2605.13292

摘要

本文介绍了一个覆盖英语和九种印度语言的并行多轮医疗对话数据集,并基于参数高效适配方法微调了一个模型,用于个性化症状采集。

现有的医疗对话系统大多采用单轮问答模式或依赖基于模板的数据集,限制了对话的真实感与多语言适用性。我们提出了IndicMedDialog,一个并行多轮医疗对话数据集,涵盖英语和九种印度语言:阿萨姆语、孟加拉语、古吉拉特语、印地语、马拉地语、旁遮普语、泰米尔语、泰卢固语和乌尔都语。该数据集基于MDDial扩展,包含大语言模型生成的合成问诊记录(https://huggingface.co/papers?q=synthetic+consultations),使用TranslateGemma(https://huggingface.co/papers?q=TranslateGemma)翻译,经母语者验证,并通过脚本感知的后处理流水线(https://huggingface.co/papers?q=post-processing+pipeline)修正语音、词汇和字符间距等错误。在此基础上,我们通过对量化小语言模型进行参数高效适配(https://huggingface.co/papers?q=parameter-efficient+adaptation)微调得到IndicMedLM,并可选地融入患者预上下文,以实现个性化多轮症状采集。我们对比了零样本多语言(https://huggingface.co/papers?q=zero-shot+multilingual)基线,跨十种语言进行了系统性错误分析(https://huggingface.co/papers?q=systematic+error+analysis),并通过医学专家评估验证了临床合理性(https://huggingface.co/papers?q=clinical+plausibility)。

查看 arXiv 页面(https://arxiv.org/abs/2605.13292)查看 PDF(https://arxiv.org/pdf/2605.13292)GitHub1(https://github.com/ShubhamKumarNigam/IndicMedDialog)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.13292)

在您的智能代理中获取此论文:

hf papers read 2605.13292

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型关联此论文

请在模型README.md中引用arxiv.org/abs/2605.13292以链接至此页面。

引用此论文的数据集0

没有数据集关联此论文

请在数据集README.md中引用arxiv.org/abs/2605.13292以链接至此页面。

引用此论文的Spaces0

没有Space关联此论文

请在Space README.md中引用arxiv.org/abs/2605.13292以链接至此页面。

包含此论文的收藏集0

没有收藏集包含此论文

请将此论文添加至收藏集(https://huggingface.co/new-collection)以链接至此页面。

相似文章

长期历史感知的医疗对话合成与评估

arXiv cs.CL

本文介绍了一种利用大语言模型(LLMs)合成长期医疗对话数据集的框架,并创建了 MediLongChat,包含三个基准任务,用于评估医疗智能体的记忆与推理能力。实验表明,即使是最先进的 LLMs 也难以完成这些任务。

MedAction:迈向主动式多轮临床诊断大语言模型

arXiv cs.CL

本文介绍了 MedAction 框架,该框架通过模拟迭代式的检查开具与假设更新,训练大语言模型(LLM)进行主动的多轮临床诊断。文章提出了一个新的数据集 MedAction-32K,并展示了开源模型在医学基准测试上的最先进水平(SOTA)性能。

HiMed:激励医学大语言模型中的印地语推理

arXiv cs.CL

介绍了HiMed,一个印地语推理医学语料库和基准套件,以及HiMed-8B,一个采用衰减脚手架奖励的印地语形式医学推理大语言模型,展示了印地语医学推理能力的提升和英印准确率差距的缩小。