大型语言模型能否模仿人类语音进行临床评估?基于LLM的数据增强方法用于认知评分预测

arXiv cs.CL 论文

摘要

本文提出了一种基于大型语言模型的数据增强框架,利用GPT-5从书面锚点生成合成口语独白,用于从语音中预测认知评分。一种相似性引导的选择策略持续降低了预测误差,特别是对于少数低分参与者。

arXiv:2605.16077v1 公告类型:新 摘要:由于数据集规模有限和类别不平衡,从自发语音中准确评估认知衰退仍然具有挑战性。在这项工作中,我们提出了一种大型语言模型(LLM)驱动的数据增强框架,以改善从语音中预测认知评分。实验在一个日语语料库上进行,每位参与者均对相同的临床提示提供了自发口头叙述和书面回答。书面回答作为语义锚点,利用GPT-5生成多种风格的口语化独白。然后,我们使用基于Sentence-BERT语音嵌入训练的偏最小二乘回归模型预测长谷川痴呆量表(Hasegawa Dementia Scale)评分,该量表在日本被广泛使用。我们研究了两种增强策略:随机类别平衡选择,该方法带来适度但不稳定的改进;以及相似性引导的类别平衡选择。后者优先选择语义接近的合成样本,从而实现更一致的改进,并显著减少了少数低分参与者的预测误差,同时保持了多数群体的性能。总体而言,我们的研究结果表明,语义引导的LLM驱动增强作为一种解决类别不平衡和提高临床语音分析数据效率的系统性方法具有潜力。
查看原文
查看缓存全文

缓存时间: 2026/05/18 06:35

# 大型语言模型能否模仿人类语音用于临床评估?基于LLM的数据增强在认知评分预测中的应用
来源:https://arxiv.org/html/2605.16077
###### 摘要

由于数据集规模有限且存在类别不平衡问题,通过自发性语音准确评估认知能力下降仍具挑战性。本研究提出了一种基于大型语言模型(LLM)的数据增强框架,旨在提升从语音中预测认知评分的性能。实验基于一个日语语料库,每位参与者需针对同一临床提示提供自发性口语叙述和书面回答。我们利用书面回答作为语义锚点,通过GPT-5生成多种风格的口语化独白。随后,采用基于Sentence-BERT语音嵌入的偏最小二乘回归模型预测长谷川痴呆量表(HDS)评分——该量表是日本广泛使用的认知筛查工具。我们研究了两种增强策略:随机类别平衡选择(带来中等但波动性改进)与相似性引导的类别平衡选择。后者优先选择语义相近的合成样本,实现更一致的改进,显著降低少数低分参与者的预测误差,同时保持多数群体的性能。总体而言,我们的研究结果表明,语义引导的LLM驱动增强方法作为解决临床语音分析中类别不平衡和数据效率问题的一种有原则途径,具有潜力。

关键词:临床语音,数据增强,大型语言模型,长谷川痴呆量表

\\NAT@set@cites

大型语言模型能否模仿人类语音用于临床评估?基于LLM的数据增强在认知评分预测中的应用

Si-Belkacem Yamine Ketir¹, Lenard Paulo Tamayo², Shohei Hisada², Shaowen Peng², Shoko Wakamiya², Eiji Aramaki²
¹法国电信南巴黎大学
²奈良先端科学技术大学院大学
[email protected]
{lenard_paulo.tamayo.ly4, peng.shaowen}@naist.ac.jp
{s-hisada, wakamiya, aramaki}@is.naist.jp

摘要内容

## 1. 引言

全球预期寿命的延长使痴呆症成为21世纪最紧迫的公共卫生挑战之一,预计到2050年病例数量将增加两倍(Livingston等人,2020 (https://arxiv.org/html/2605.16077#bib.bib12);世界卫生组织,2019 (https://arxiv.org/html/2605.16077#bib.bib13))。在缺乏治愈性疗法的情况下,早期检测认知能力下降对于及时干预至关重要。尽管标准化神经心理学评估(如简易精神状态检查(MMSE)和修订版长谷川痴呆量表(HDS-R;以下简称HDS)(Maeshima等人,2024 (https://arxiv.org/html/2605.16077#bib.bib18)))仍是认知评估的黄金标准,但它们具有固有局限性。这些测试需要由受过培训的专业人员实施,并可能给老年患者带来显著的心理压力,从而可能干扰结果。此外,由于这些测试通常在症状变得临床明显后才会进行,其对微妙、亚临床的早期下降的敏感性有限。而且,频繁的纵向监测往往因练习效应而不切实际——重复接触特定测试项目会人为提高分数,掩盖真实的认知轨迹(Maeshima等人,2024 (https://arxiv.org/html/2605.16077#bib.bib18);Tiberti等人,1998 (https://arxiv.org/html/2605.16077#bib.bib14);Igarashi和Nihei,2022 (https://arxiv.org/html/2605.16077#bib.bib15))。

参照图说明:图1:所提出的基于LLM的数据增强框架,用于从语音预测认知评分。下划线术语表示口语标记,红色术语表示风格特征。

为克服这些限制,自发性语音分析已作为一种非侵入性且经济高效的认知健康生物标志物出现(Lima等人,2025 (https://arxiv.org/html/2605.16077#bib.bib8))。语言作为一项整合记忆、执行功能和语义处理的复杂认知任务,在句法、词汇和流畅性方面表现出微妙变化,这些变化通常先于其他领域的可测量下降(Szatloczki等人,2015 (https://arxiv.org/html/2605.16077#bib.bib9);Hoffmann等人,2010 (https://arxiv.org/html/2605.16077#bib.bib10))。这使得语音成为早期检测的有效信号。

尽管有潜力,但开发基于语音的认知评估的稳健机器学习模型面临若干挑战。由于伦理和后勤限制,临床数据集仍然很小(Qi等人,2023 (https://arxiv.org/html/2605.16077#bib.bib11)),并且诸如Pitt语料库等子集存在类别不平衡问题(Jahan等人,2024 (https://arxiv.org/html/2605.16077#bib.bib7))。标准的词汇数据增强技术(如同义词替换、随机插入、交换或删除)已被应用于认知评估任务(Igarashi和Nihei,2022 (https://arxiv.org/html/2605.16077#bib.bib15))。然而,当目标是建模痴呆症的微妙语言标记(如连贯性受损、句法不规则或找词困难)时,这些通用转换可能会无意中修改具有临床意义的信号。此外,随意的词汇或句法修改可能引入与真实认知衰退无关的伪影,降低临床有效性。

为应对这些挑战,我们提出了一种由大型语言模型驱动的临床引导合成数据生成框架。与通用词汇增强策略不同,我们的方法利用了一个特定设置:每位患者针对标准化认知提示提供书面和口头两种回答。我们采用一种跨模态启发的方法,通过将LLM条件设定在结构化的书面叙述上,生成合成口语风格转录。这种条件设定机制实现了受控变异:生成的样本保留了事实和认知内容,同时引入了口语特征,如不流畅、简化的句法复杂性和风格变异性。如图1所示,这种方法减轻了幻觉风险,并保留了微妙语音模式的临床有效性。

本文的主要贡献如下:

- 基于LLM的跨模态启发数据增强框架,将书面叙述转化为口语风格语音,同时保留痴呆症特有的语言标记,应对数据稀缺问题。
- 证明了相似性引导过滤对于保持合成数据质量和忠实于真实语音模式至关重要。
- 在认知评分回归任务上使用小而失衡的临床数据集验证了该方法。

这项工作为临床语音分析中负责任的合成数据生成提供了一种有原则的方法,并展示了大型语言模型在数据高效认知评估中的潜力。

## 2. 相关工作

从自发性语音自动评估认知能力下降在计算语言学和临床AI领域日益引起关注。早期研究主要集中在痴呆症的二元分类,通常依赖诸如DementiaBank的公开语音语料库(Fraser等人,2016 (https://arxiv.org/html/2605.16077#bib.bib1)),这也启发了ADReSS挑战语料库等标准化数据集(Zolnour等人,2025 (https://arxiv.org/html/2605.16077#bib.bib6))。尽管广泛使用,这些数据集规模有限,且部分存在类别不平衡问题。例如,Pitt语料库包含955条健康对照者的录音,而痴呆症患者仅有586条,这给构建稳健且可推广的模型带来了挑战(Jahan等人,2024 (https://arxiv.org/html/2605.16077#bib.bib7);Hlédiková等人,2022 (https://arxiv.org/html/2605.16077#bib.bib4);Qi等人,2023 (https://arxiv.org/html/2605.16077#bib.bib11))。

早期方法依赖手工制作的声学和语言特征,如停顿时长、语速、词汇丰富度、句法复杂度和不流畅标记,然后与传统的机器学习模型结合,以区分认知健康的受试者和痴呆症患者(Fraser等人,2016 (https://arxiv.org/html/2605.16077#bib.bib1);Tóth等人,2015 (https://arxiv.org/html/2605.16077#bib.bib2))。

随着深度学习的出现,近年研究已转向基于预训练语言和语音模型的表示学习方法。来自BERT等模型的上下文嵌入已被证明能捕捉临床相关的语言模式,并可有效用于痴呆症检测和认知评分预测(Balagopalan等人,2020 (https://arxiv.org/html/2605.16077#bib.bib3))。与此同时,许多方法采用了多模态策略,通过融合机制结合声学和语言特征以提高分类性能(Hlédiková等人,2022 (https://arxiv.org/html/2605.16077#bib.bib4);Zolnour等人,2025 (https://arxiv.org/html/2605.16077#bib.bib6))。这些多模态方法利用了不同数据源的互补信息,但通常侧重于特征级或后期融合。

为克服小型数据集的限制,多项研究探索了数据增强技术。这些包括基于文本的增强(如近义词替换、释义或随机句子修改)以及基于音频的增强(包括添加噪声、音调和时间偏移、时间/频率掩码)(Hlédiková等人,2022 (https://arxiv.org/html/2605.16077#bib.bib4))。近期工作(Igarashi和Nihei,2022 (https://arxiv.org/html/2605.16077#bib.bib15))表明,对日本老年人小型数据集应用基于文本的增强提高了分类性能,凸显了这类方法在提升认知评估准确性方面的潜力。最近,大型语言模型被研究作为合成临床文本的生成器,以进一步增强数据多样性和模型鲁棒性(Hlédiková等人,2022 (https://arxiv.org/html/2605.16077#bib.bib4);Liu等人,2025 (https://arxiv.org/html/2605.16077#bib.bib5))。

尽管有这些进展,大多数先前研究集中在痴呆症与非痴呆症的二元分类,少数尝试预测实际认知评分。此外,尚无工作探索LLM驱动的跨模态增强用于自发性语音的认知评分预测,也没有使用患者书面叙述生成口语风格独白的研究。这些空白推动了对能够处理小型数据集并使用跨模态、基于LLM的增强策略预测连续认知评分的方法的需求。

## 3. 任务定义与数据集

### 3.1 任务定义

本研究的目标是采用回归方法从语音数据预测认知评分,最终目的是支持认知能力下降的早期检测。在我们的设定中,每位参与者针对单个标准化认知提示提供自发性叙述,预测目标是参与者的HDS评分——日本广泛使用的一种认知筛查指标。

虽然预测的主要输入是参与者叙述的口语转录,但同一提示的手写回答仅在训练期间作为辅助数据利用。这些书面文本在推理时不使用,但通过合成数据生成丰富了训练集。这种策略使模型能够在可用语音数据集规模有限的情况下,更好地捕捉认知能力下降的微妙语言标记。

### 3.2 数据集概述

本研究依赖于日本老年人语音语料库(含健康对照)的一个子集(GSK2018-A)¹¹¹https://www.gsk.or.jp/catalog/gsk2018-a(日文),由语言资源协会(GSK)分发。本研究中使用的子集包含30名年龄72至86岁的老年参与者的语音数据,每人针对提示“请告诉我们您最近发生的一件好事”提供自发性叙述。除高质量音频录音外,数据集还包括针对同一提示的手写回答作为受控语言参考,以及HDS评分形式的临床注释。这种设计在参与者之间保持主题一致性的同时,引发自由形式的自传体语音,使该语料库非常适合语言和副语言分析。

### 3.3 任务挑战

尽管数据集丰富,但任务面临重大挑战。手动注释的口语转录仅适用于74岁及以上的参与者,而年轻参与者需要利用日语版OpenAI Whisper-1生成的自动转录,引入了转录质量的潜在变异性。此外,对原始数据集中HDS评分分布的分析(如图2蓝色柱形图所示)揭示了强烈的不平衡:评分主要在28到30之间,对应认知健康状态,而较低评分(22-27)代表性不足。这种低评分数据的稀缺性使回归建模复杂化,并推动了对数据增强策略的需求,以增强模型在整个认知评分范围内的性能。

## 4. 提出的方法

### 4.1 概述

如图1和图3所示,我们提出了一个纯自然语言处理(NLP)框架,用于增强用于HDS评分回归的语音数据。对于每位患者,我们使用大型语言模型生成多个合成口语风格独白,条件设定在患者的书面叙述及其关联的HDS评分上。每位患者生成七份合成转录,保留原始语义内容,同时引入语言和话语的自然变异。

为了反映认知变异性,这些合成独白包含了犹豫、填充词、停顿和简化表达等口语标记,这些标记的频率和强度由HDS评分决定。增强训练集由合成样本与原始口语转录组合而成。应用两种选择策略(随机选择和相似性引导选择)来控制数据质量。附录B:逐步生成示例(https://arxiv.org/html/2605.16077#Ax2)提供了从书面叙述到合成独白的完整转换的逐步示例。

参照图说明:图2:合成数据增强前后HDS评分类别的分布。蓝色(“原始”)指手动注释的口语转录,橙色(“合成”)指从患者书面回答生成的合成数据。

参照图说明:图3:基于LLM的数据增强框架,用于从语音预测认知评分。

### 4.2 语义锚定

无约束的文本生成可能修改患者回答的原始语义内容。在临床背景下,保持患者数据的原始含义是合成数据生成的必要约束。

在GSK2018-A语料库中,每位患者同时提供口头回答和书面

相似文章

大型语言模型有多像人类?一个关注语域的语言评估框架

arXiv cs.CL

本文提出了一种关注语域的语言评估框架,通过使用最大均值差异(MMD)比较人类与LLM生成文本中67个词汇语法特征的分布,来评估大型语言模型(LLM)的人类相似度。在七个经过指令微调的开源模型和五个语域上的实验表明,没有模型能完美匹配人类基线,且与人类语言的接近程度因语域而异,而非模型规模。

在标准化病例中评估大语言模型在动态临床决策中的表现

Hugging Face Daily Papers

研究人员提出了MedSP1000,这是一个包含1638个病例的交互式基准,源自标准化患者场景,用于评估大语言模型作为动态临床代理在多轮问诊中的表现。结果显示,即使是最佳模型(GPT-5.5)也仅完成了60.4%的专家评分项,表明当前的大语言模型在临床实践中尚不够可靠。

大型语言模型能否革新调查研究?以灾害防备响应的实验为例

arXiv cs.AI

本文提出一个五阶段框架,将大型语言模型整合到调查研究中,以应对回复率下降、样本偏差和欺诈性完成等问题。基于2024年米尔顿飓风调查数据,作者提出了一种理论知情的LLM(A-TLM),在缺失数据场景中优于经典插补方法,并通过基于事实的拒答机制展示了可控的幻觉风险。

如何利用合成语音构建基于LLM的ASR系统?

arXiv cs.CL

本文研究了基于LLM的ASR系统中合成语音与真实语音之间的分布差距,定位了LLM区分两者的层位置,并提出使用层选择与RIR增强方法,以更少的真实数据匹配真实数据基线。