IndicMedDialog:面向印度语言可及医疗的并行多轮医疗对话数据集
摘要
IndicMedDialog 是一个并行多轮医疗对话数据集,涵盖英语和九种印度语言,并包含一个微调模型,用于个性化症状询问。该数据集源自 MDDial,通过LLM生成的合成咨询和专家验证进行增强,支持多语言医疗AI。
查看缓存全文
缓存时间: 2026/05/14 20:20
论文页面 - IndicMedDialog:面向印度语言可及医疗服务的并行多轮医疗对话数据集
来源:https://huggingface.co/papers/2605.13292
摘要
本文介绍了一个覆盖英语和九种印度语言的并行多轮医疗对话数据集,并基于参数高效适配方法微调了一个模型,用于个性化症状采集。
现有的医疗对话系统大多采用单轮问答模式或依赖基于模板的数据集,限制了对话的真实感与多语言适用性。我们提出了IndicMedDialog,一个并行多轮医疗对话数据集,涵盖英语和九种印度语言:阿萨姆语、孟加拉语、古吉拉特语、印地语、马拉地语、旁遮普语、泰米尔语、泰卢固语和乌尔都语。该数据集基于MDDial扩展,包含大语言模型生成的合成问诊记录(https://huggingface.co/papers?q=synthetic+consultations),使用TranslateGemma(https://huggingface.co/papers?q=TranslateGemma)翻译,经母语者验证,并通过脚本感知的后处理流水线(https://huggingface.co/papers?q=post-processing+pipeline)修正语音、词汇和字符间距等错误。在此基础上,我们通过对量化小语言模型进行参数高效适配(https://huggingface.co/papers?q=parameter-efficient+adaptation)微调得到IndicMedLM,并可选地融入患者预上下文,以实现个性化多轮症状采集。我们对比了零样本多语言(https://huggingface.co/papers?q=zero-shot+multilingual)基线,跨十种语言进行了系统性错误分析(https://huggingface.co/papers?q=systematic+error+analysis),并通过医学专家评估验证了临床合理性(https://huggingface.co/papers?q=clinical+plausibility)。
查看 arXiv 页面(https://arxiv.org/abs/2605.13292)查看 PDF(https://arxiv.org/pdf/2605.13292)GitHub1(https://github.com/ShubhamKumarNigam/IndicMedDialog)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.13292)
在您的智能代理中获取此论文:
hf papers read 2605.13292
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型关联此论文
请在模型README.md中引用arxiv.org/abs/2605.13292以链接至此页面。
引用此论文的数据集0
没有数据集关联此论文
请在数据集README.md中引用arxiv.org/abs/2605.13292以链接至此页面。
引用此论文的Spaces0
没有Space关联此论文
请在Space README.md中引用arxiv.org/abs/2605.13292以链接至此页面。
包含此论文的收藏集0
没有收藏集包含此论文
请将此论文添加至收藏集(https://huggingface.co/new-collection)以链接至此页面。
相似文章
面向口语语言处理任务的机器人-患者与医生-患者医疗对话数据集
本文介绍了MeDial-Speech,一个用于口语语言处理的机器人-患者与医生-患者医疗对话数据集,并在句子选择基准上评估了三个大型语言模型,发现Claude Sonnet 4最为准确。
长期历史感知的医疗对话合成与评估
本文介绍了一种利用大语言模型(LLMs)合成长期医疗对话数据集的框架,并创建了 MediLongChat,包含三个基准任务,用于评估医疗智能体的记忆与推理能力。实验表明,即使是最先进的 LLMs 也难以完成这些任务。
ArogyaSutra:面向印度语言中多模态医学推理的多智能体框架
ArogyaBodha数据集和ArogyaSutra框架通过多样化数据集成和actor-critic多智能体推理,增强了低资源环境下的多语言医学推理能力。
MedAction:迈向主动式多轮临床诊断大语言模型
本文介绍了 MedAction 框架,该框架通过模拟迭代式的检查开具与假设更新,训练大语言模型(LLM)进行主动的多轮临床诊断。文章提出了一个新的数据集 MedAction-32K,并展示了开源模型在医学基准测试上的最先进水平(SOTA)性能。
HiMed:激励医学大语言模型中的印地语推理
介绍了HiMed,一个印地语推理医学语料库和基准套件,以及HiMed-8B,一个采用衰减脚手架奖励的印地语形式医学推理大语言模型,展示了印地语医学推理能力的提升和英印准确率差距的缩小。