用于临床培训的法语OSCE对话数据集与可控虚拟患者系统

arXiv cs.CL 论文

摘要

本文介绍了一个包含240次交互的法语OSCE对话数据集,以及一个基于可控LLM的流水线,用于生成合成OSCE对话,从而实现医学培训中带有自动反馈的逼真虚拟患者模拟。

arXiv:2606.28526v1 公告类型:新 摘要:医学生的临床与沟通技能通常通过客观结构化临床考试(OSCE)进行评估,该考试由简短的场景驱动医患互动模拟组成。然而,由于人类标准化患者可用性低,培训常常受限,这促使了逼真虚拟患者(VP)的开发。为应对这一差距,我们引入了一个包含240次学生-患者培训交互的法语OSCE对话数据集。在此基础上,我们构建了一个基于可控LLM的流水线,用于生成合成OSCE对话。该流水线集成了模块化组件,如基于检索的上下文锚定和反思循环,以确保患者的保真度、连贯性和真实感。此外,我们提出了一个多层次评估框架,使用以LLM为评判者的方法评估患者模拟质量、学生表现和语言质量。实验表明,可控性模块通常能提高患者保真度和学生评估的一致性。最后,我们实现了一个交互式原型,学生可以在此与VP进行练习并获得自动反馈。
查看原文
查看缓存全文

缓存时间: 2026/06/30 05:27

# 面向临床培训的法语OSCE对话数据集与可控虚拟病人系统  
来源:https://arxiv.org/html/2606.28526  

Doria Bonzi¹, Tom Bourgeade¹, Fabrice Lefèvre², Irina Illina¹  
¹洛林大学,CNRS,Inria,LORIA,南锡,法国  
²阿维尼翁大学,LIA,UPR 4128,阿维尼翁,法国  
doria\.bonzi@loria\.fr, tom\.bourgeade@loria\.fr, irina\.illina@loria\.fr  
fabrice\.lefevre@univ\-avignon\.fr  

###### 摘要  

医学生临床与沟通技能通常通过客观结构化临床考试(OSCE)进行评估。OSCE由简短的场景驱动式医患互动模拟构成。然而,由于人类标准化病人可用性低,培训常受限,这推动了逼真虚拟病人(VP)系统的开发。为填补这一空白,我们推出一个法语OSCE对话数据集,包含240次学生–病人训练互动。在此基础上,我们构建了一个可控的、基于大语言模型(LLM)的流水线,用于生成合成OSCE对话。该流水线集成了模块化组件(如基于检索的接地机制和反思循环),以确保病人角色的忠实性、连贯性和逼真度。此外,我们提出一个多层次评估框架,采用LLM作为评判员(LLM-as-a-Judge)方法,评估病人模拟质量、学生表现和语言质量。实验表明,可控性模块通常能提升病人忠实度和学生评估一致性。最后,我们还实现了一个交互式原型,学生可在此与虚拟病人练习并获得自动反馈。  

---

# 法语OSCE对话数据集与面向临床培训的可控虚拟病人系统  

Doria Bonzi¹, Tom Bourgeade¹, Fabrice Lefèvre², Irina Illina¹  
¹洛林大学,CNRS,Inria,LORIA,南锡,法国  
²阿维尼翁大学,LIA,UPR 4128,阿维尼翁,法国  
doria\.bonzi@loria\.fr, tom\.bourgeade@loria\.fr, irina\.illina@loria\.fr  
fabrice\.lefevre@univ\-avignon\.fr  

## 1 引言

客观结构化临床考试(OSCE)用于评估医学教育中的临床推理和沟通技能。在法国,这些考试让医学生扮演医生角色,在7-10分钟的基于场景的模拟互动中与标准化病人(SP)交流,并由评估员观察。SP是指经过训练的个人,为医疗卫生学生的培训和评估而扮演预定义的病人场景(Lewis等,2017 (https://arxiv.org/html/2606.28526#bib.bib52))。每个OSCE场景称为一个“站点”,可涵盖多种医疗互动,从病史采集、结果分析到告知坏消息等。OSCE的设计近似真实临床接触,并有意识地简化了许多方面以服务于教学目的。沟通技能在OSCE表现中起着核心作用;然而,学生培训受限于人类标准化病人和评估员的可用性,导致频繁练习的可扩展性差、成本高。

已提出虚拟病人(VP)系统来解决这些问题,这些系统依赖基于规则或脚本驱动的方法(Zini等,2019 (https://arxiv.org/html/2606.28526#bib.bib14);Campillos-Llanos等,2019 (https://arxiv.org/html/2606.28526#bib.bib24);Laleye等,2020a (https://arxiv.org/html/2606.28526#bib.bib5))。数据驱动和基于LLM的VP系统已表现出更好的流畅性和逼真度(Voigt等,2025 (https://arxiv.org/html/2606.28526#bib.bib12);García-Torres等,2024 (https://arxiv.org/html/2606.28526#bib.bib15);Cook等,2025 (https://arxiv.org/html/2606.28526#bib.bib32))。一些研究探索了使用LLM作为评判员(LLM-as-a-Judge)的OSCE评估自动反馈(Shakur等,2024 (https://arxiv.org/html/2606.28526#bib.bib40);Campbell等,2025 (https://arxiv.org/html/2606.28526#bib.bib34);Huang等,2026 (https://arxiv.org/html/2606.28526#bib.bib44))。尽管有这些进展,当前基于LLM的VP系统往往缺乏可控性,难以一致地遵循预定义的临床站点。近期工作还指出,在基于LLM的VP系统中缺乏标准化和可复现的评估框架(Li和Lutfi,2026 (https://arxiv.org/html/2606.28526#bib.bib30)),而这对于可靠评估至关重要。公开可用的OSCE相关数据集很少,尤其是法语数据集。现有的英语OSCE数据集聚焦于特定临床任务或领域(Fareez等,2022 (https://arxiv.org/html/2606.28526#bib.bib17);Saley等,2024 (https://arxiv.org/html/2606.28526#bib.bib8))。大规模医疗对话资源(Liu等,2024 (https://arxiv.org/html/2606.28526#bib.bib28);Ben Abacha等,2023 (https://arxiv.org/html/2606.28526#bib.bib20))通常不符合OSCE约束,或缺乏考试环境所需的互动和评估结构。法语资源在规模和范围上仍然有限(Laleye等,2020b (https://arxiv.org/html/2606.28526#bib.bib21))。法语OSCE数据的缺乏限制了数据驱动训练和评估工具的开发。

为应对这些挑战,本文提出:  
1. (1) 一个240个录制的法语OSCE训练对话数据集,并附有转录文本,可在Zenodo¹¹上获取;  
2. (2) 一个可控的、基于LLM的OSCE对话生成流水线,具有模块化组件,支持自动和交互两种模式;  
3. (3) 一个多层次的LLM作为评判员的评估框架,用于评估生成的对话和录制的OSCE互动。

## 2 相关工作

**虚拟病人与基于LLM的模拟:** 近期关于基于LLM的VP的研究聚焦于逼真度、交互性、自动评分与反馈(Voigt等,2025 (https://arxiv.org/html/2606.28526#bib.bib12);García-Torres等,2024 (https://arxiv.org/html/2606.28526#bib.bib15))以及病人数据忠实度(Wang等,2024b (https://arxiv.org/html/2606.28526#bib.bib37);Laverde等,2025 (https://arxiv.org/html/2606.28526#bib.bib35))。具身VP已被探索作为模拟工具,强调真实的行为互动(Chaby等,2022 (https://arxiv.org/html/2606.28526#bib.bib47))。智能体方法采用结构化病人数据结合多智能体RAG工作流,以实现可控性(Yu等,2025 (https://arxiv.org/html/2606.28526#bib.bib9))。然而,这些工作很少以真实OSCE录音为基础,限制了其在真实互动中的接地性。

**医疗对话与合成对话生成:** 在OSCE背景下,Fareez等(2022 (https://arxiv.org/html/2606.28526#bib.bib17))引入了一个模拟病人访谈数据集,聚焦于呼吸系统病例。在此基础上,Saley等(2024 (https://arxiv.org/html/2606.28526#bib.bib8))发布了一个英语的OSCE格式病史采集数据集。法语医疗对话资源仍然有限。Laleye等(2020b (https://arxiv.org/html/2606.28526#bib.bib21))引入了一个小型带注释的法语语料库,包含生成的对话以及医学生与病人之间的互动。Chen等(2023 (https://arxiv.org/html/2606.28526#bib.bib36))研究了基于LLM的双智能体模拟,同时模拟医生和病人以生成临床对话。大规模医疗对话数据集提供了广泛的临床互动覆盖,但并非为OSCE特定场景设计(Jepson等,2017 (https://arxiv.org/html/2606.28526#bib.bib18);Zeng等,2020 (https://arxiv.org/html/2606.28526#bib.bib3);Liu等,2024 (https://arxiv.org/html/2606.28526#bib.bib28);Ben Abacha等,2023 (https://arxiv.org/html/2606.28526#bib.bib20))。与此同时,基于LLM的对话生成方法改善了流畅性和逼真度,但缺乏严格的可控性以及与结构化考试设置的对齐(Das等,2024 (https://arxiv.org/html/2606.28526#bib.bib31);Wang等,2024a (https://arxiv.org/html/2606.28526#bib.bib19))。

**反思性提示与基于LLM的评估:** 近期LLM提示技术的进展引入了自我反思和批评机制,以提高复杂生成任务中的事实性、连贯性和任务遵循度(Agrawal等,2026 (https://arxiv.org/html/2606.28526#bib.bib38);Chirkova等,2026 (https://arxiv.org/html/2606.28526#bib.bib1);Li等,2023 (https://arxiv.org/html/2606.28526#bib.bib6))。同时,LLM作为评判员的范式已出现,用于在多个标准上大规模评估对话代理,包括对话质量和OSCE表现(Shakur等,2024 (https://arxiv.org/html/2606.28526#bib.bib40);Campbell等,2025 (https://arxiv.org/html/2606.28526#bib.bib34))。Gu等(2026 (https://arxiv.org/html/2606.28526#bib.bib2))强调了其日益增长的采用,应用范围从人机对话评估(Njifenjou等,2025 (https://arxiv.org/html/2606.28526#bib.bib25), 2024 (https://arxiv.org/html/2606.28526#bib.bib26))到OSCE场景(Shakur等,2024 (https://arxiv.org/html/2606.28526#bib.bib40);Campbell等,2025 (https://arxiv.org/html/2606.28526#bib.bib34))以及对受控设置中对话代理的基准测试(Zheng等,2023 (https://arxiv.org/html/2606.28526#bib.bib10))。这些方法促使我们设计结构化的评估和反思环节,并将其融入我们的流水线中,以评估和迭代改进生成的OSCE对话。

基于先前工作,我们的方法在三个方面有所区别:(1) 聚焦于法语OSCE站点,解决法语医疗对话资源匮乏的问题;(2) 一个模块化、可控的LLM对话生成流水线,集成了信息检索和自我反思,并基于涵盖十个以上医学专业的OSCE数据;(3) 一个多方面评估,涵盖语言和临床表现。

## 3 所提出的法语OSCE对话数据集

我们提出的数据集包括:(i) 一个包含240个录制OSCE训练对话的语料库,总计30小时音频;(ii) 一个包含792个生成对话的语料库,这些对话使用我们可控的基于LLM生成流水线的不同实验配置生成(见图2(a) (https://arxiv.org/html/2606.28526#S3.F2.sf1))。

| 组件 | 数量 |
|------|------|
| OSCE站点总数 | 192 |
| **录制对话** | |
| 已录制的OSCE站点 | 23 |
| 录制对话数 | 240 |
| 总音频时长(小时) | 30 |
| **生成对话** | |
| 使用的OSCE站点 | 11 |
| 生成对话数 | 792 |
| 生成的总词数 | 1.22M |

(a) 数据集统计:已录制和生成的对话。

(b) OSCE站点分类及各类别站点数量。

**图2:法语OSCE对话数据集概览,包括已录制和生成的对话。**

### 3.1 数据收集:OSCE站点与录制对话

#### OSCE站点:
本数据集共收集了192个OSCE临床站点,涵盖10个以上的医学专业。这些站点由医学教师和医疗专业人员编写。每个OSCE站点包含三个互补文档,通过专用在线平台提供:**医生操作单**(面向被评估学生)、**病人信息单**和**评估员操作单**。每个OSCE站点被映射到为本工作专门开发的、重点关注对话生成的**难度分类**中的某一类别,该分类考虑:(i) 对话对象类型;(ii) 是否需要文档分析(图2(b) (https://arxiv.org/html/2606.28526#S3.F2.sf2))。

#### OSCE录制对话:
我们录制了240个学生扮演的医患对话,涉及99名六年级医学生,跨越23个不同的OSCE站点。这些录音是在当地学生协会每周组织的OSCE培训课程期间收集的,这些课程旨在紧密模拟法国国家OSCE考试的条件。由于外部志愿者可用性有限,所有角色(医生、病人和评估员)均由学生扮演。尽管这并非理想情况,但在我们的环境中是不可避免的限制。由于参与者既非专业演员也非受过训练的OSCE评估员,这种设置可能影响互动和评估的逼真度,并且可能部分解释在将这些对话与合成生成的对话进行比较时观察到的差异。每次OSCE培训时长为8分钟,随后是评估员进行2分钟的反馈。所有参与者均签署了书面知情同意书,同意将录音用于研究目的。音频使用无线领夹麦克风录制。所有录音使用同一软件采集,生成同步的双声道WAV文件。关于录音协议的更多细节详见附录A.1 (https://arxiv.org/html/2606.28526#A1.SS1)。

#### 已录制站点的标注:
每个已录制的站点都手动赋予了标签:12个**专业**之一(如神经内科、儿科、消化内科)、一种**咨询类型**(如急诊、随访)以及一个或多个**目标**(如诊断、告知坏消息、病史采集、患者教育)。所有标注由一名标注员通过仔细检查OSCE站点材料(特别是医生操作单和评估员操作单,这些材料通常提供站点背景,包括专业、咨询类型和主要目标)完成(见附录A.4 (https://arxiv.org/html/2606.28526#A1.SS4))。

#### 自动转录:
所有录制的对话使用`precision-2`模型(PyAnnoteAI,2024 (https://arxiv.org/html/2606.28526#bib.bib50))进行自动说话人分离,并使用`faster-whisper-large-v3-turbo`模型(OpenAI,2024 (https://arxiv.org/html/2606.28526#bib.bib51);Radford等,2023 (https://arxiv.org/html/2606.28526#bib.bib7))进行转录。

#### 转录评估:
为评估转录质量,计算了词错误率(WER),将自动转录与手动校正版本进行比较。选择26个自动转录的对话作为子集(约占录制语料库的11%),由15名法语流利的标注员使用原始音频进行手动校正。得到的WER为7.7%,表明真实临床对话的转录质量良好,尽管是在有限样本上计算的。更多关于WER计算的信息见附录A.2 (https://arxiv.org/html/2606.28526#A1.SS2)。常见错误包括:姓名、缩写词(如SMUR、ECOS)、领域特定医学术语(如“dyspnée”;“气短”),以及由于交叉对话和犹豫或重复等不流畅导致的偶尔的说话人分离错误。

## 4 受控对话生成流水线

为了将基于LLM的虚拟病人与学生扮演的病人在OSCE培训中进行对比评估,我们从结构化的OSCE站点操作单合成了792个对话。我们专注于11个有真实培训录音的站点,排除了涉及文档分析(如放射影像)的多模态站点。在本工作中,我们有意识地将问题限制为基于文本的互动,排除语音和多模态信息。我们提出的方法(图1 (https://arxiv.org/html/2606.28526#S1.F1))围绕对话生成构建...

相似文章

长期历史感知的医疗对话合成与评估

arXiv cs.CL

本文介绍了一种利用大语言模型(LLMs)合成长期医疗对话数据集的框架,并创建了 MediLongChat,包含三个基准任务,用于评估医疗智能体的记忆与推理能力。实验表明,即使是最先进的 LLMs 也难以完成这些任务。