IndicMedDialog：面向印度语言可及医疗的并行多轮医疗对话数据集

Hugging Face Daily Papers 2026/05/13 00:00 论文

medical-dialogue multi-turn synthetic-data multilingual indic-languages fine-tuning dataset

摘要

IndicMedDialog 是一个并行多轮医疗对话数据集，涵盖英语和九种印度语言，并包含一个微调模型，用于个性化症状询问。该数据集源自 MDDial，通过LLM生成的合成咨询和专家验证进行增强，支持多语言医疗AI。

现有的大多数医疗对话系统采用单轮问答范式或依赖基于模板的数据集，限制了对话的真实感和多语言适用性。我们引入了 IndicMedDialog，这是一个并行多轮医疗对话数据集，涵盖英语和九种印度语言：阿萨姆语、孟加拉语、古吉拉特语、印地语、马拉地语、旁遮普语、泰米尔语、泰卢固语和乌尔都语。该数据集通过LLM生成的合成咨询扩展了MDDial，使用TranslateGemma进行翻译，由母语者验证，并通过脚本感知的后处理流水线进行优化，以纠正语音、词汇和字符间距错误。基于该数据集，我们通过对量化的小语言模型进行参数高效微调来微调IndicMedLM，并融入可选的患者预上下文以个性化多轮症状询问。我们针对零样本多语言基线进行了评估，在十种语言中进行了系统错误分析，并通过医学专家评估验证了临床合理性。

查看原文

查看缓存全文

缓存时间: 2026/05/14 20:20

论文页面 - IndicMedDialog：面向印度语言可及医疗服务的并行多轮医疗对话数据集

来源：https://huggingface.co/papers/2605.13292

摘要

本文介绍了一个覆盖英语和九种印度语言的并行多轮医疗对话数据集，并基于参数高效适配方法微调了一个模型，用于个性化症状采集。

现有的医疗对话系统大多采用单轮问答模式或依赖基于模板的数据集，限制了对话的真实感与多语言适用性。我们提出了IndicMedDialog，一个并行多轮医疗对话数据集，涵盖英语和九种印度语言：阿萨姆语、孟加拉语、古吉拉特语、印地语、马拉地语、旁遮普语、泰米尔语、泰卢固语和乌尔都语。该数据集基于MDDial扩展，包含大语言模型生成的合成问诊记录（https://huggingface.co/papers?q=synthetic+consultations），使用TranslateGemma（https://huggingface.co/papers?q=TranslateGemma）翻译，经母语者验证，并通过脚本感知的后处理流水线（https://huggingface.co/papers?q=post-processing+pipeline）修正语音、词汇和字符间距等错误。在此基础上，我们通过对量化小语言模型进行参数高效适配（https://huggingface.co/papers?q=parameter-efficient+adaptation）微调得到IndicMedLM，并可选地融入患者预上下文，以实现个性化多轮症状采集。我们对比了零样本多语言（https://huggingface.co/papers?q=zero-shot+multilingual）基线，跨十种语言进行了系统性错误分析（https://huggingface.co/papers?q=systematic+error+analysis），并通过医学专家评估验证了临床合理性（https://huggingface.co/papers?q=clinical+plausibility）。

查看 arXiv 页面（https://arxiv.org/abs/2605.13292）查看 PDF（https://arxiv.org/pdf/2605.13292）GitHub1（https://github.com/ShubhamKumarNigam/IndicMedDialog）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.13292）

在您的智能代理中获取此论文：

hf papers read 2605.13292

没有最新的CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型关联此论文

请在模型README.md中引用arxiv.org/abs/2605.13292以链接至此页面。

引用此论文的数据集0

没有数据集关联此论文

请在数据集README.md中引用arxiv.org/abs/2605.13292以链接至此页面。

引用此论文的Spaces0

没有Space关联此论文

请在Space README.md中引用arxiv.org/abs/2605.13292以链接至此页面。

包含此论文的收藏集0

没有收藏集包含此论文

请将此论文添加至收藏集（https://huggingface.co/new-collection）以链接至此页面。

IndicMedDialog：面向印度语言可及医疗的并行多轮医疗对话数据集

论文页面 - IndicMedDialog：面向印度语言可及医疗服务的并行多轮医疗对话数据集

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Spaces0

包含此论文的收藏集0

相似文章

面向口语语言处理任务的机器人-患者与医生-患者医疗对话数据集

长期历史感知的医疗对话合成与评估

ArogyaSutra：面向印度语言中多模态医学推理的多智能体框架

MedAction：迈向主动式多轮临床诊断大语言模型

HiMed：激励医学大语言模型中的印地语推理

提交意见反馈