NeuroSonic：基于条件流匹配的脑电图到语音重建

arXiv cs.LG 2026/06/24 04:00 论文

eeg speech-reconstruction flow-matching generative-model transformer neural-decoding

摘要

NeuroSonic 提出了一种条件流匹配框架，用于从脑电图信号重建连续语音。通过学习一个确定性的概率流速度场，解决了神经数据与声学数据之间的结构不匹配问题。在跨受试者基准测试中，相比现有的GAN、扩散和均值流基线，该方法在感知质量上取得了高达26.3%的提升。

arXiv:2606.24087v1 公告类型：新摘要：从头皮脑电图（EEG）重建连续语音仍然面临根本性挑战。脑电图提供的是对分布式皮质活动的微弱、空间弥散且高度可变的测量，而语音则组织为具有强谐波和时间结构的连贯声学轨迹。由此产生的失配使得波形回归不稳定，并导致随机多步生成对伪影相关的条件和受试者变异性敏感。我们提出了 NeuroSonic，一个用于脑电图到语音重建的条件流匹配框架。NeuroSonic 不是直接预测波形或通过随机去噪对其进行改进，而是学习一个确定性的概率流速度场，该场在脑电图条件下将受噪声污染的声学状态传输至干净的语音。脑电图和音频被嵌入到一个共享的令牌空间中，并由一个时间条件门控 Transformer 处理，该 Transformer 参数化传输常微分方程。这种公式显式地建模轨迹演化，同时避免了迭代随机采样。我们在跨受试者评估下，在 CineBrain 和 EAV 基准上评估了 NeuroSonic。在两个数据集上，所提出的方法在分布的真实性、频谱保真度和感知质量上均优于代表性的 GAN、扩散和均值流基线，整体感知质量提升高达 26.3%。性能差距在伪影较多的片段中最为明显，这些片段的条件变异性最强。这些发现表明，确定性条件传输为脑电图驱动的语音重建提供了一种稳定且有效的公式。代码可在 https://github.com/Y-Research-SBU/NeuroSonic/ 获取。

查看原文

查看缓存全文

缓存时间: 2026/06/24 07:50

# NeuroSonic：基于条件流匹配的脑电解码语音重建

来源：https://arxiv.org/html/2606.24087

11institutetext:纽约州立大学石溪分校，美国纽约州石溪市
11email:chenyu\.you@stonybrook\.edu22institutetext:德克萨斯大学休斯顿健康科学中心，美国德克萨斯州休斯顿市
33institutetext:埃默里大学，美国佐治亚州亚特兰大市王逸帆11footnotemark:1马一佳Carl Yang李晨宇尤晨宇通讯作者\.

###### 摘要

从头皮脑电图（EEG）重建连续语音仍然是一个根本性挑战。EEG 提供了对分布式皮层活动的微弱、空间弥散且高度可变的测量，而语音则组织为具有强谐波和时域结构的连贯声学轨迹。由此产生的失配使得波形回归不稳定，并导致随机多步生成对伪迹相关的条件和受试者变异性敏感。我们提出了NeuroSonic，一个用于脑电解码语音重建的条件流匹配框架。NeuroSonic 不直接预测波形或通过随机去噪进行细化，而是学习一个确定性的概率流速度场，该场在 EEG 条件下将噪声污染的声学状态输送到干净语音。EEG 和音频被嵌入到一个共享的 token 空间中，并由一个参数化传输常微分方程的时间条件门控 Transformer 处理。这种公式显式地建模轨迹演化，同时避免了迭代随机采样。我们在跨受试者评估设置下，在 CineBrain 和 EAV 基准数据集上评估了 NeuroSonic。在两个数据集上，所提出的方法在分布真实性、频谱保真度和感知质量方面均优于代表性的 GAN、扩散和平均流基线，总体感知质量提升高达 26.3%。性能差距在伪迹密集的片段中最为明显，这些片段的条件变异性最强。这些发现表明，确定性的条件传输为 EEG 驱动的语音重建提供了一种稳定且有效的公式。代码可在以下链接获得：here (https://github.com/Y-Research-SBU/NeuroSonic/) 。

## 1 引言

从头皮脑电图重建连续语音需要耦合两种结构截然不同的信号。EEG 记录是分布式皮层源的低振幅、空间弥散投影 [19 (https://arxiv.org/html/2606.24087#bib.bib32),1 (https://arxiv.org/html/2606.24087#bib.bib33)]。它们在受试者和会话间表现出显著的变异性，并且易受运动和生理伪迹的影响 [27 (https://arxiv.org/html/2606.24087#bib.bib38),17 (https://arxiv.org/html/2606.24087#bib.bib39),24 (https://arxiv.org/html/2606.24087#bib.bib40)]。相比之下，语音沿着高度组织化的声学轨迹演化，其特征是谐波结构和时域连贯性。因此，从神经测量到声学实现的映射是间接的、时间上错位的，并且受到干扰变异性的强烈混淆。尽管基于 EEG 的系统在受限词汇分类方面取得了有希望的结果 [13 (https://arxiv.org/html/2606.24087#bib.bib27)]，但高保真重建自然连续语音仍未解决。最近的 EEG 基础模型改进了可迁移表示 [5 (https://arxiv.org/html/2606.24087#bib.bib45)]，但连续语音重建仍未解决。

生成建模为离散解码提供了一个原则性的替代方案 [16 (https://arxiv.org/html/2606.24087#bib.bib9),4 (https://arxiv.org/html/2606.24087#bib.bib10),3 (https://arxiv.org/html/2606.24087#bib.bib11),30 (https://arxiv.org/html/2606.24087#bib.bib12),29 (https://arxiv.org/html/2606.24087#bib.bib28)]。然而，主流的范式并未完全与头皮 EEG 对齐。基于 GAN 的合成在条件信号较弱或高度可变时可能变得不稳定 [8 (https://arxiv.org/html/2606.24087#bib.bib41),9 (https://arxiv.org/html/2606.24087#bib.bib6)]。扩散模型改善了优化行为，但依赖于多步随机采样，并假设在时间步上存在一致的损坏调度 [10 (https://arxiv.org/html/2606.24087#bib.bib42),18 (https://arxiv.org/html/2606.24087#bib.bib7),23 (https://arxiv.org/html/2606.24087#bib.bib8),21 (https://arxiv.org/html/2606.24087#bib.bib14)]。在 EEG 条件下，这些假设受到伪迹相关噪声模式和受试者间异质性的挑战，这可能在采样步骤中累积并降低重建一致性。

参照图例图 1:NeuroSonic 概述。\(a\) EEG 和音频信号被分割成补丁，\{Ei\}\\\{E\_\{i\}\\\} 和 \{Xj\}\\\{X\_\{j\}\\\}，并通过各自模态编码器 fE\(⋅\)f\_\{E\}\(\\cdot\) 和 fA\(⋅\)f\_\{A\}\(\\cdot\) 投影到共享的潜在空间中进行联合建模。 \(b\) 一个时间条件下的门控 Transformer 处理合并后的序列，以及一个被扰乱的声学状态 ztz\_\{t\}，该状态通过在流程匹配路径上，在时间 tt 将干净音频与高斯噪声 ε\\epsilon 插值得到。使用自适应层归一化和 RMS 稳定的注意力来保持跨插值时间的稳定特征缩放。 \(c\) 基于速度的目标训练预测速度 vpredv\_\{\\mathrm\{pred\}\}，该速度根据预测的干净状态 XpredX\_\{\\mathrm\{pred\}\} 计算得出，以匹配在 EEG 条件下控制声学传输的目标传输速度 vtv\_\{t\}。这些动机促使我们寻求一种能够在异质条件下保持稳定的、直接建模声学轨迹演化的公式。流匹配 (Flow Matching, FM) 提供了一个连续时间的生成框架，其中神经网络学习一个速度场，该速度场在分布之间传输概率路径 [15 (https://arxiv.org/html/2606.24087#bib.bib43)]。最近的工作探索了基于矫正流的潜在合成，用于对齐 EEG 和语音表示，以进行语音驱动的临床分析 [26 (https://arxiv.org/html/2606.24087#bib.bib44)]。通过参数化确定性概率流而不是随机细化链，FM 消除了迭代去噪的需求，并使条件可以作用于传输动力学本身。最近的 EEG 生成工作进一步表明，流匹配对于保留神经信号中的连续时间和频谱结构是有效的 [25 (https://arxiv.org/html/2606.24087#bib.bib46)]。这种视角非常适合语音重建，因为其时域连贯性是信号结构固有的。

在这项工作中，我们将 EEG 到语音的重建公式化为条件声学传输。我们不试图一步预测波形或通过随机采样进行细化，而是学习一个确定性的速度场，该速度场在 EEG 条件下将被扰乱的声学状态映射到干净语音。基于此公式，我们引入了NeuroSonic。如图 1 (https://arxiv.org/html/2606.24087#S1.F1) 所示，EEG 和音频信号被分割成补丁级别的表示，并嵌入到共享的潜在空间中。一个时间条件下的门控 Transformer 处理联合序列，以参数化控制声学演化的概率流常微分方程。这种设计实现了全局的跨模态交互，同时稳定了跨插值时间的特征动态，从而在伪迹污染和跨受试者变异性下实现稳健的重建。 \(1\) 我们通过条件流匹配 [15 (https://arxiv.org/html/2606.24087#bib.bib43)] 将 EEG 到语音的重建重新表述为一个确定性的、轨迹感知的逆问题。 \(2\) 我们提出了一种多模态 token 化方案和一个时间条件的 Transformer 架构，该架构在共享的潜在空间内对齐神经表示与声学动态。 \(3\) 我们在公开的 EEG-音频基准数据集上展示了一致的改进，优于代表性的 GAN、扩散和平均流基线，特别是在跨受试者评估和伪迹密集的条件下。

## 2 方法

### 2.1 预备知识：用于条件传输的流匹配

流匹配将生成建模表述为学习概率分布之间的连续时间传输 [15 (https://arxiv.org/html/2606.24087#bib.bib43)]。令 p0p\_\{0\} 表示一个简单先验，p1=pdatap\_\{1\}=p\_\{\\text\{data\}\} 表示目标分布。FM 定义了一个连接这两者的概率路径 \{pt\(x\)\}t∈\[0,1\]\\\{p\_\{t\}\(x\)\\\}\_\{t\\in\[0,1\]\}，并学习一个速度场，该速度场沿此路径传输样本。在线性插值路径下，

xt=\(1−t\)x0\+tx1,v\(x0,x1,t\)=x1−x0,dxtdt=vθ\(xt,t\),x\_\{t\}=\(1\-t\)x\_\{0\}\+tx\_\{1\},\\qquad v\(x\_\{0\},x\_\{1\},t\)=x\_\{1\}\-x\_\{0\},\\qquad\\frac\{\\mathrm\{d\}x\_\{t\}\}\{\\mathrm\{d\}t\}=v\_\{\\theta\}\(x\_\{t\},t\),\(1\)其中 x0∼p0x\_\{0\}\\sim p\_\{0\} 且 x1∼pdatax\_\{1\}\\sim p\_\{\\text\{data\}\}。神经速度场 vθv\_\{\\theta\} 通过回归到闭式目标速度进行训练：

LFM=Ex0,x1,t\[‖vθ\(xt,t\)−\(x1−x0\)‖1\]。\\mathcal\{L\}\_\{\\mathrm\{FM\}\}=\\mathbb\{E\}\_\{x\_\{0\},x\_\{1\},t\}\\left\[\\\|v\_\{\\theta\}\(x\_\{t\},t\)\-\(x\_\{1\}\-x\_\{0\}\)\\\|\_\{1\}\\right\]。\(2\)对概率流 ODE 进行积分，可以将先验样本在 t=1t=1 时传输到数据流形。这种确定性传输公式消除了对随机去噪的需求，并构成了条件声学建模的基础。

### 2.2 NeuroSonic

条件声学传输。我们将 EEG 到语音的重建表述为声学轨迹的条件传输。给定配对的 EEG-音频样本 \(E,X\)\(E,X\)，我们构建一个被扰乱的声学状态：

zt=tX\+\(1−t\)ε,ε∼N\(0,I\),z\_\{t\}=tX\+\(1\-t\)\\varepsilon,\\qquad\\varepsilon\\sim\\mathcal\{N\}\(0,I\),\(3\)并学习一个速度场，该速度场在 EEG 条件下将 ztz\_\{t\} 输送到干净语音。架构概览如图 1 (https://arxiv.org/html/2606.24087#S1.F1) 所示。EEG 和被扰乱的音频 token 被联合处理，以预测控制声学演化的概率流常微分方程。在推理时，学习的 ODE 使用固定步长的 Heun 求解器从 t=0t=0 积分到 t=1t=1，产生由神经活动条件决定的确定性重建。

多模态 Token 化与对齐。令 E∈RC×T1E\\in\\mathbb\{R\}^\{C\\times T\_\{1\}\} 且 X∈RT2X\\in\\mathbb\{R\}^\{T\_\{2\}\}。EEG 和声学信号被分割成不重叠的补丁：E∈RC×T1E\\in\\mathbb\{R\}^\{C\\times T\_\{1\}\} 且 X∈RT2X\\in\\mathbb\{R\}^\{T\_\{2\}\}。每个补丁被投影到一个共享的潜在空间：

ei=fE\(vec\(Ei\)\),xj=fA\(vec\(Xj\)\),e\_\{i\}=f\_\{E\}\(\\mathrm\{vec\}\(E\_\{i\}\)\),\\qquad x\_\{j\}=f\_\{A\}\(\\mathrm\{vec\}\(X\_\{j\}\)\),\(4\)嵌入维度为 dd。可学习的模态嵌入和位置编码被加入：

e~i=ei\+τE\+pi,x~j=xj\+τA\+pj。\\tilde\{e\}\_\{i\}=e\_\{i\}\+\\tau\_\{E\}\+p\_\{i\},\\qquad\\tilde\{x\}\_\{j\}=x\_\{j\}\+\\tau\_\{A\}\+p\_\{j\}。\(5\)得到的序列：

Z=\[\{e~i\};\{x~j\}\]∈R\(NE\+NA\)×dZ=\[\\\{\\tilde\{e\}\_\{i\}\\\};\\\{\\tilde\{x\}\_\{j\}\\\}\]\\in\\mathbb\{R\}^\{\(N\_\{E\}\+N\_\{A\}\)\\times d\}\(6\)实现了全局的跨模态交互。通过自注意力聚合信息，隐式地衰减了头皮 EEG 中的局部运动伪迹和低信噪比扰动。

时间条件门控 Transformer。序列 ZZ 由 LL 个预归一化的 Transformer 块处理，这些块以插值时间 tt 为条件：

Z′\\displaystyle Z^\{\\prime\}=Z\+gmsa⋅MSA\(AdaLN\(Z;t\)\)，\\displaystyle=Z\+g\_\{\\text\{msa\}\}\\cdot\\mathrm\{MSA\}\(\\mathrm\{AdaLN\}\(Z;t\)\)，\(7\)Z\\displaystyle Z=Z′\+gmlp⋅MLP\(AdaLN\(Z′;t\)\)。\\displaystyle=Z^\{\\prime\}\+g\_\{\\text\{mlp\}\}\\cdot\\mathrm\{MLP\}\(\\mathrm\{AdaLN\}\(Z^\{\\prime\};t\)\)。\(8\)其中 AdaLN\(U;t\)=γt⊙LN\(U\)\+βt\\mathrm\{AdaLN\}\(U;t\)=\\gamma\_\{t\}\\odot\\mathrm\{LN\}\(U\)\+\\beta\_\{t\}，γt,βt\\gamma\_\{t\},\\beta\_\{t\} 来自时间嵌入。全局多头自注意力定义为

MSA\(Z\)=Concati=1h\(Softmax\(QiKi⊤dh\)Vi\)WO，\\mathrm\{MSA\}\(Z\)=\\mathrm\{Concat\}\_\{i=1\}^\{h\}\\left\(\\mathrm\{Softmax\}\\left\(\\frac\{Q\_\{i\}K\_\{i\}^\{\\top\}\}\{\\sqrt\{d\_\{h\}\}\}\\right\)V\_\{i\}\\right\)W^\{O\}，\(9\)其中 dh=d/hd\_\{h\}=d/h。时间相关的插值会引起特征分布在 tt 上发生偏移，可能破坏注意力 logits 的稳定性 [28 (https://arxiv.org/html/2606.24087#bib.bib36)]。为控制此效应，我们对查询和键应用逐头 RMS 归一化：

Q←RMSNorm\(Q\),K←RMSNorm\(K\)。Q\\leftarrow\\mathrm\{RMSNorm\}\(Q\),\\qquad K\\leftarrow\\mathrm\{RMSNorm\}\(K\)。\(10\)网络输出 Xpred=net\(zt,t,E\)X\_\{\\text\{pred\}\}=\\mathrm\{net\}\(z\_\{t\},t,E\)，速度由此推导得出。

基于速度的目标。根据流形假设 [2 (https://arxiv.org/html/2606.24087#bib.bib18)]，干净声学信号位于一个低维结构上。我们不在波形空间直接回归，而是在速度空间中监督传输动态 [14 (https://arxiv.org/html/2606.24087#bib.bib17)]。给定 ε=zt−tX1−t\\varepsilon=\\frac\{z\_\{t\}\-tX\}\{1\-t\}，以及 vt=X−zt1−tv\_\{t\}=\\frac\{X\-z\_\{t\}\}\{1\-t\}，预测速度为 vpred=Xpred−zt1−tv\_\{\\text\{pred\}\}=\\frac\{X\_\{\\text\{pred\}\}\-z\_\{t\}\}\{1\-t\}。最终目标是

L=EX,ε,t\[‖vpred−vt‖1\]。\\mathcal\{L\}=\\mathbb\{E\}\_\{X,\\varepsilon,t\}\\left\[\\\|v\_\{\\text\{pred\}\}\-v\_\{t\}\\\|\_\{1\}\\right\]。\(11\)在速度空间中对传输进行监督，将锚定学习在干净声学状态上，并在低信噪比和异质神经条件下提高鲁棒性。

## 3 实验

表 1：在跨受试者评估下，EEG 条件语音重建的客观评估。FAD、LSD、SC 和推理时间（秒）的较低值表示更好的性能。结果以平均值 ±\\pm 标准差报告。每个指标的最佳值以粗体显示。### 3.1 数据集

我们在两个公开可用的 EEG-音频数据集上评估 NeuroSonic，这些数据集涵盖了受控对话式录音和自然视听刺激。预处理后，合并的语料库包含来自 48 名受试者的数据，总计约 60 小时的同步 EEG-音频录音（49,200 个配对片段）。CineBrain [6 (https://arxiv.org/html/2606.24087#bib.bib19)] 提供了在连续视听呈现期间同步记录的 EEG 和 fMRI。伴随的音频包括语音和背景音，从而产生了声学上复杂的重建目标。我们遵循原始协议，将 EEG 信号与音频流进行时间对齐，并将连续录音重新组织成匹配的片段。EAV [12 (https://arxiv.org/html/2606.24087#bib.bib20)] 包含来自 42 名参与者的对话式交互，并同步了 EEG、音频和视频。与 CineBrain 相比，EAV 包含更清晰的语音结构，但由于自发的对话和发音差异，具有更强的受试者特异性变异性。

对于这两个数据集，预处理严格遵循 [6 (https://arxiv.org/html/2606.24087#bib.bib19),12 (https://arxiv.org/html/2606.24087#bib.bib20)] 中的设置。EEG 信号经过标准的伪迹去除流程，包括 MRI 相关伪迹校正（如果适用）、0.1-30 Hz 带通滤波、50 Hz 陷波滤波，以及基于 ICA 去除眼动、肌肉和心脏成分。所有报告的结果都是在跨受试者评估下获得的，确保测试受试者未在训练中出现过。

参照图例图 2：比较

NeuroSonic：基于条件流匹配的脑电图到语音重建

相似文章

FM-fMRI：基于事件条件流匹配的静息态到任务态fMRI时间序列合成

FlowLet: 基于小波流匹配的条件性3D脑MRI合成

NaturalFlow：减少同时语音翻译中干扰性停顿以促进自然语音流畅

掩码语言流模型

探索Flow Matching中奖励反向传播的设计空间

提交意见反馈