从神经活动进行端到端的大脑皮层内语音解码
摘要
本文提出了一种端到端的基于Conformer的神经解码器,用于从一位肌萎缩侧索硬化症(ALS)参与者的皮层内记录进行语音解码,在没有任何外部语言模型的情况下,字符错误率达到23.80%。该研究表明,在完全端到端的框架中实现有意义的字符级解码是可行的。
查看缓存全文
缓存时间: 2026/05/26 09:01
# 从神经活动到文本的端到端皮层内语音解码
来源:https://arxiv.org/html/2605.24313
\\interspeechcameraready
Khanday Gonzalez\-Lopez Ouellet Galdón Olivares Granados 格拉纳达大学 西班牙 格拉纳达大学 西班牙 拉斯涅韦斯大学医院(格拉纳达) 西班牙
###### 摘要
当前高性能的皮层内语音神经假体虽然实现了较低的词错误率,但在推理时通常依赖外部语言模型,这增加了内存、计算和延迟。本文研究在没有此类模型的情况下,能否实现有意义的字符级解码。我们提出了一种基于 Conformer 的端到端神经解码器,该解码器直接从一位肌萎缩侧索硬化症 (ALS) 参与者的皮层内记录中训练。在没有任何外部语言模型的情况下,该系统在保留验证集上实现了 23.80% 的字符错误率 (CER)。分析表明,性能波动主要由会话间信号退化驱动,而主要错误则源于错误的词边界分割。这些结果表明,在完全端到端的框架中实现有效的字符级解码是可能的,为下游语言处理提供了强大的神经信号。
###### 关键词:
脑机接口,语音神经假体,皮层内语音解码,神经语音解码,Conformer,端到端学习
## 1. 引言
神经语音假体 [chang2024brain, silva2024speech] 代表了现代神经科学和生物医学工程中最具雄心的前沿领域之一,为严重神经系统疾病患者 [hochberg2006neuronal, shenoy2013cortical, andersen2004intention, donoghue2002connecting] 恢复失去的沟通能力提供了希望。最有可能受益的人群包括肌萎缩侧索硬化症 (ALS)、脊髓损伤 (SCI)、闭锁综合征 (LIS) 或脑干中风患者。这些疾病会逐渐或突然切断人类表达意图的运动通路,但高级认知功能在很大程度上保持完整 [birbaumer2000slow, chaudhary2016locked, vansteensel2016fully]。对于这些人来说,无法说话、书写或做手势并不代表没有思想,而是无法将意图转化为身体动作。语音神经假体旨在通过直接从大脑解码神经信号,完全绕过受损的运动通路来弥合这一差距 [wolpaw2002brain, lebedev2006brain]。该领域已经探索了多种记录方式,每种方式在信号分辨率、侵入性和长期稳定性之间提供不同的权衡 [leuthardt2004brain]。非侵入性方法,如脑电图 (EEG) 和功能性磁共振成像 (fMRI),具有可及性和安全性,但受到低空间分辨率和易受噪声影响的限制 [wang2022open, tang2023semantic, nakanishi2018enhancing, abiri2019comprehensive]。
皮层电图 (ECoG) 将电极网格直接放置在皮层表面,实现了显著更高的信号保真度,并实现了令人印象深刻的语音和语言解码结果 [makin2020machine, moses2021neuroprosthesis, herff2015brain, angrick2019speech]。在分辨率谱系的最高端,皮层内微电极阵列以毫秒级的时间精度记录来自小群神经元的单单元和多单元峰电位活动,提供了迄今为止最丰富的神经信号 [pandarinath2017high, gilja2015clinical, hochberg2012reach, trautmann2019accurate]。
近年来的一系列里程碑式研究帮助定义了皮层内语音神经假体的当前技术水平 [willett2021high, willett2023high, Card2024]。Willett 等人 [willett2021high] 证明,从运动皮层手部 knob 区域记录的神经活动可以解码为手写字符,速度约为每分钟 90 个字符,准确率很高,与健全打字员的速度相当,并确立了运动皮层作为可解码语言意图的丰富来源。随后,Willett 等人 [willett2023high] 将该范式扩展到直接语音解码,从一位 ALS 参与者那里实现了实时合成尝试语音,速度为每分钟 62 个词,在一个大词汇量上词错误率为 23.8%,性能水平接近当代自动语音识别 (ASR) 系统 [baevski2020wav2vec, radford2023robust]。Card 等人 [Card2024] 进一步推进了这项工作,报告了在 248 小时的自然对话中持续低于 5% 的词错误率,表明皮层内语音 BCI 可以在长时间的部署中达到临床有意义的准确性。
尽管取得了这些令人印象深刻的成就,当前最先进的皮层内语音解码系统的一个常见架构特征是它们在推理时依赖外部语言模型 (LM) 来重新评分连接主义时间分类 (CTC) [graves2006connectionist] 束搜索的输出。在 Willett 等人 [willett2023high] 的系统中,使用了一个词汇量为 125,000 个词的基于 Transformer 的语言模型来重新排列候选转录,这显著降低了最终的词错误率。类似地,Card 等人 [Card2024] 在解码流水线中使用了一个 n-gram 语言模型。
虽然外部语言模型在提高词级准确性方面非常有效,但它们引入了实际限制。大词汇量语言模型需要大量内存,并且带有 LM 集成的 CTC 束搜索本质上是顺序的,不易并行化,引入了与束宽成正比的延迟 [hannun2014deep]。对于完全植入的语音神经假体,其解码硬件必须小型化、节能且能够实时运行,无需连接外部计算机,这些要求可能变得过高 [shenoy2013cortical, kao2020considerations]。重要的是,LM 在这些系统中的作用是施加语言结构并纠正解码错误,而不是直接从神经信号中提取信息。这提出了一个关键问题:在完全端到端的框架中,不依赖外部 LM 重新评分,神经解码性能能在多大程度上得到提升?
因此,这项工作的核心动机是研究在完全端到端的设置中,是否可以实现有意义的字符级皮层内语音解码。为此,我们提出了一种基于 Conformer [gulati2020conformer] 的序列解码器,它使用 CTC 目标 [graves2006connectionist] 将皮层内神经记录直接映射到字符序列,在推理时没有任何 LM。此外,为了解决公认的会话间神经非平稳性挑战(由电极漂移、阻抗波动和日常神经群体动态变化引起 [simeral2011neural, gallego2017neural, chestek2011single]),我们引入了一个会话特定的线性对齐层,放在共享 Conformer 编码器之前。这个轻量级的适配器允许模型归一化会话特定的特征分布,而共享编码器则学习更稳定、会话不变的表示 [li2019jasper]。我们进一步开发了有针对性的数据增强策略,以改善跨 45 个记录会话(跨越 20 个月的临床数据 [park2019specaugment])的泛化能力。我们的结果表明,在没有外部 LM 重新评分的情况下,可以实现有意义的字符级解码,为更简单、更易于部署的皮层内语音神经假体迈出了有希望的一步。
本文的其余部分组织如下。第 2 节 (https://arxiv.org/html/2605.24313#S2) 回顾了神经语音解码方面的先前工作。第 3 节 (https://arxiv.org/html/2605.24313#S3) 介绍了提出的方法,包括参与者和数据集、模型架构以及数据增强策略。第 4 节 (https://arxiv.org/html/2605.24313#S4) 报告了实验结果,第 5 节 (https://arxiv.org/html/2605.24313#S5) 总结了论文,并指出了局限性和未来方向。
## 2. 相关工作
从神经信号解码语音和语言在多种记录方式上都取得了快速进展 [brumberg2010brain, martin2014decoding, anumanchipalli2019speech]。早期使用 ECoG 的工作表明,语音相关皮层区域的神经活动包含足够的信息来重建声学特征和对音素进行分类 [herff2015brain, anumanchipalli2019speech]。序列到序列的方法进一步实现了在受限词汇表上的直接神经到文本映射,尽管有限的词汇覆盖率限制了其对开放式沟通的适用性 [makin2020machine]。
随后的研究侧重于临床相关场景。Moses 等人 [moses2021neuroprosthesis] 使用 CNN-LSTM 词分类器在小型词汇表上证明了无语言症参与者的实时沟通,而后续工作提高了通信速率和词汇量 [metzger2023high]。
在皮层内领域,最近的进展在解码准确性和速度方面取得了实质性改进。Willett 等人 [willett2021high] 展示了从运动皮层活动进行高速率字符级解码,随后将该方法扩展到直接语音解码,使用了基于 CTC 的模型结合语言模型重新评分 [willett2023high]。Card 等人 [Card2024] 使用基于 Conformer 的编码器进一步提高了性能,在长期记录中实现了低词错误率。
在这些系统中出现了一个共同的架构范式:神经编码器产生音素或字符概率,在解码过程中与语言模型结合 [hannun2014deep, chan2016listen]。这种方法继承自自动语音识别 (ASR),利用语言的统计结构来提高词级准确性。
然而,从系统角度来看,集成语言模型会引入额外的计算和内存需求,以及由于束搜索导致的解码延迟 [hannun2014deep]。虽然有效,但这种耦合促使探索能够加强神经解码组件本身的方法,从而实现神经信号提取和下游语言处理之间更清晰的分离。
皮层内语音神经假体的另一个关键挑战是跨记录会话的神经信号非平稳性 [simeral2011neural, gallego2017neural]。由于电极漂移、神经放电模式变化和其他生物因素,会发生变化,通常导致跨会话泛化能力下降。先前的工作通过重新校准 [jarosiewicz2015virtual]、流形对齐 [degenhart2020stabilization] 和轻量级适配层 [Card2024, li2019jasper] 来解决这个问题。
最后,Conformer 架构 [gulati2020conformer] 最近已成为基于神经的语音解码的有效编码器,结合了自注意力和卷积模块来捕获全局和局部的时间结构。基于补丁的标记化策略通过减少序列长度同时保留时间上下文,进一步提高了效率 [dosovitskiy2020vit, liu2021swin]。在这项工作中,我们通过将 Conformer 编码器与会话特定的对齐层和用于端到端字符级解码的时间补丁嵌入相结合,建立在上述思想之上。
## 3. 方法
参见图注图 1:提出的基于 Conformer 的皮层内语音解码架构概述。我们在公开的 Brain-to-Text '25 基准测试上评估了一个端到端的皮层内语音解码器。提出的流水线如图 1 (https://arxiv.org/html/2605.24313#S3.F1) 所示,首先对神经特征应用会话特定的对齐层,然后进行时间补丁嵌入和 Conformer 编码器,该编码器使用 CTC 目标预测字符序列。在训练期间,我们应用了一组神经数据增强策略,旨在提高对会话间变异性和噪声的鲁棒性。
### 3.1 参与者和数据集
在本研究中,我们使用公开可用的 Brain-to-Text '25 基准测试 111https://www.kaggle.com/competitions/brain-to-text-25,这是一个用于皮层内语音解码的大规模数据集,具有标准化的训练、验证和测试分割。该数据集包含来自一位 45 岁男性 ALS 参与者的神经记录和行为数据,如 Card 等人 [Card2024] 所述,并跨越了大约 20 个月内收集的 45 个记录会话。该参与者表现出严重的构音障碍和四肢轻瘫,但保留了完整的认知功能。
使用植入左侧腹侧中央前回的四个 64 通道皮层内微电极阵列(共 256 个电极)记录神经活动。这些阵列针对参与语音产生的皮层区域,包括初级运动皮层(布罗德曼 4 区)、腹侧运动前皮层和邻近的语言相关区域。
记录的神经信号使用 512 个特征表示,包括从每个电极提取的阈值交叉计数和 spike 频带功率。这些特征是在不重叠的 20 毫秒时间窗口内计算的,提供了群体水平神经活动的高时间分辨率表示。这种表示捕获了与语音相关的运动规划和执行相关的峰电位活动和局部场电位动态。
该数据集包含总共 10,948 个试验,分为 8,072 个训练试验、1,426 个验证试验和 1,450 个测试试验。每个试验对应一个提示的语音话语,对齐的文本转录用于模型训练和评估的监督。
实现细节可在 https://github.com/owaismujtaba/E2ESpeechDecoding.git 找到
### 3.2 模型架构
我们引入了一个基于 Conformer 的序列解码器,用于不间断的脑到文本翻译。该框架通过 CTC 目标 [graves2006connectionist] 将高维皮层内神经记录转换为字符级转录。该模型有四个组件,如图 1 (https://arxiv.org/html/2605.24313#S3.F1) 所示:(i) 会话特定的线性对齐层,(ii) 步进时间补丁嵌入模块,(iii) 一堆 Conformer 块,以及 (iv) 字符预测头。模型超参数在表 1 (https://arxiv.org/html/2605.24313#S3.T1) 中概述。在以下小节中,我们将详细描述这四个组件。
表 1:神经解码架构配置。
#### 3.2.1 会话特定输入对齐
皮层内神经记录中会出现显著的会话间变异性,这是由于电极漂移、阻抗波动以及日常神经信号统计变化引起的。为了抵御这些非平稳性,我们在共享 Conformer 编码器*之前*执行一个会话特定的线性适配器层。对于属于会话索引 d ∈ {1, ..., N_days} 的试验,输入特征 X ∈ ℝ^(T×C) 被转换为:
X' = σ(X W_d + b_d), (1)
其中 C 是神经通道数,W_d ∈ ℝ^(C×C) 是会话特定的权重矩阵,b_d ∈ ℝ^(1×C) 是偏置向量,σ(·) 表示 SiLU (Sigmoid Linear U相似文章
Brain-CLIPLM:基于脑电压缩语义表征的语言重建解码
研究人员提出Brain-CLIPLM,一个两阶段脑电到文本解码框架,利用对比学习提取语义锚点,并结合基于检索的大语言模型(LLM)及思维链(CoT)推理进行句子重建。该方法在测试中达到67.55%的Top-5句子检索准确率和85.00%的Top-25准确率,显著优于直接解码基线模型,跨被试评估证实了其良好的泛化能力。研究结果表明,脑电到文本解码应聚焦于恢复压缩后的语义内容,而非完整句子重建。
基于跨语言迁移学习的多语言语音阿尔茨海默病检测方法
本文提出了一种跨语言迁移学习方法,用于从语音中检测阿尔茨海默病,覆盖多种语言,实现了82%的F1分数,并支持实时筛查应用。
利用语言模型的稀疏特征解读大脑对语言的反应
本文介绍了Augmented Sparse Encoding Models,利用语言模型的稀疏特征解读大脑对语言的反应,并在高场7T fMRI数据上进行了验证。该模型恢复了已知的神经调谐特性,并发现了一个新的体素群体,该群体对与人相关的内容具有调谐特性。
自回归大语言模型正式与鱼共眠(Yann LeCun是对的)
CETI项目使用大语言模型的架构解码抹香鲸的咔嗒声,揭示了其语音字母表,但也凸显出AI的统计模式匹配缺乏真正的理解。文章认为,AGI需要具身化、多模态的根基,而不仅仅是基于文本的模型扩展。
元学习上下文学习实现无需训练的跨被试脑解码
# 论文页面 - 元学习上下文学习实现无需训练的跨被试脑解码 来源:[https://huggingface.co/papers/2604.08537](https://huggingface.co/papers/2604.08537) 作者:,,,,,,,,,,,,, ## 摘要 一种元优化方法通过少量图像-脑示例快速推断个体独特神经编码模式,无需跨被试及扫描仪微调,即可实现可泛化的语义视觉解码。[视觉解码](https://huggingface.co/papers?q