多路径自适应门控瓶颈潜变量ODE与拉曼数据融合用于细胞培养过程预测

arXiv cs.LG 论文

摘要

本文提出了一种门控瓶颈潜变量ODE结合多路径即时微调与拉曼数据融合的方法,以改进哺乳动物细胞培养过程的多日预测,在真实生物反应器数据上取得了更好的性能。

arXiv:2606.26520v1 公告类型:新 摘要:哺乳动物细胞培养过程是许多生物制药生产的基础,但保持批次正常运行十分困难:关键过程参数在数天内漂移,而偏离规格的趋势往往在确认后已来不及干预。早期、多天的预测能够及时调整补料、取样和控制,但生物过程预测具有挑战性,因为测量数据稀疏且采样不规则,不同细胞系和培养基的操作条件异质,且早期行为几乎相同的批次可能分叉走向不同的未来。我们提出了一种自适应框架,结合了门控瓶颈潜变量常微分方程(GB-Latent ODE)与多路径即时微调(MP-JIT-FT)。GB-Latent ODE 通过可学习的变量级门控和掩码感知瓶颈来增强标准潜变量 ODE,压缩高维稀疏输入,从而在有限数据下改善学习效果。给定一个部分观测的批次,MP-JIT-FT 检索相似的历史轨迹,将局部邻域聚类为候选模式,并为每个模式微调一个单独的模型,生成多个合理路径,每个路径带有基于重构的置信度分数,而不是单一的预测均值。我们进一步融合拉曼光谱数据:一个机器学习软传感器将密集的拉曼光谱转化为伪观测值,丰富稀疏的离线测量数据,以实现更稳健的训练。在涵盖14种条件的38次补料分批5L生物反应器批次上,结合拉曼融合的MP-JIT-FT取得了最佳平均排名,并在9个目标变量中的8个上优于全局潜变量 ODE 基线。通过局部散度指标,我们展示了当局部相似前缀发生分叉时,多路径增益最大,而拉曼融合在早期动态能代表后期行为时帮助最大。
查看原文
查看缓存全文

缓存时间: 2026/06/26 05:20

# 多路径自适应门控瓶颈潜在常微分方程与拉曼数据融合用于细胞培养过程预测 来源: https://arxiv.org/html/2606.26520 Johnny Peng, Thanh Tung Khuat, Ellen Otte, Katarzyna Musial, and Bogdan GabrysJohnny Peng, Thanh Tung Khuat, Katarzyna Musial, and Bogdan Gabrys 就职于复杂自适应系统实验室,数据科学研究所,悉尼科技大学,新南威尔士州 2007,澳大利亚 \(e\-mail: johnny\.peng@student\.uts\.edu\.au; thanhtung\.khuat@uts\.edu\.au; Katarzyna\.Musial\-Gabrys@uts\.edu\.au; bogdan\.gabrys@uts\.edu\.au\)。Ellen Otte 就职于 CSL Innovation,墨尔本,维多利亚州 3000,澳大利亚 \(e\-mail: ellen\.otte@csl\.com\.au\)。通讯作者:Johnny Peng。###### 摘要 哺乳动物细胞培养过程是许多生物制药生产的基础,但保持过程正常进行相当困难:关键过程参数在数天内发生漂移,且异常趋势往往在确认时已来不及干预。早期、多天的预测可以及时调整补料、取样和控制,但生物过程预测颇具挑战,因为测量稀疏且采样不规则,不同细胞系和培养基的操作条件异质性高,并且早期行为几乎相同的批次可能在未来分岔至不同的结果。我们提出了一种自适应框架,将门控瓶颈潜在常微分方程(GB-Latent ODE)与多路径即时微调(MP-JIT-FT)相结合。GB-Latent ODE 在标准 Latent ODE 的基础上增加了可学习的逐变量门控和掩码感知瓶颈,用于压缩高维稀疏输入,从而在有限数据下改进学习。给定一个部分观测的批次,MP-JIT-FT 检索相似的历史轨迹,将局部邻域聚类成候选模态,并为每个模态微调一个独立模型,以生成多个合理的路径,每个路径附有一个基于重构的置信度分数,而不是单一的平均预测。我们进一步融合了拉曼光谱数据:一个机器学习软传感器将密集的拉曼光谱转换为伪观测值,以丰富稀疏的离线测量,从而实现更稳健的训练。在涵盖 14 种条件的 38 次补料分批 5L 生物反应器批次上,采用拉曼融合的 MP-JIT-FT 取得了最佳平均排名,并在 9 个目标变量中的 8 个上优于全局 Latent ODE 基线。通过使用局部发散度量,我们表明当局部相似的前缀发生分岔时,多路径方法带来的增益最大;而当早期动态能够代表后期行为时,拉曼融合帮助最大。 ## I 引言 哺乳动物细胞培养,特别是中国仓鼠卵巢(CHO)细胞,是治疗性蛋白质和单克隆抗体的主要生产宿主\[26 (https://arxiv.org/html/2606.26520#bib.bib31),11 (https://arxiv.org/html/2606.26520#bib.bib64)\]。它们的行为受耦合的代谢、环境和控制动力学支配,这些动力学在 1 到 2 周的运行周期中演变,乳酸或氨等代谢物的早期微小偏差可能累积成不合格批次\[8 (https://arxiv.org/html/2606.26520#bib.bib2),14 (https://arxiv.org/html/2606.26520#bib.bib4)\]。因为人工干预——调整补料、取样或控制设定点——必须在这些趋势变得不可逆转之前进行,生物制药制造商越来越多地需要在批次早期阶段获得细胞培养轨迹的准确多天预测,而非事后分析\[32 (https://arxiv.org/html/2606.26520#bib.bib41),46 (https://arxiv.org/html/2606.26520#bib.bib1),19 (https://arxiv.org/html/2606.26520#bib.bib12)\]。产生这样的预测很困难,原因有几个。生物反应器数据采样不规则:稀疏的离线分析(通常每天仅一到三次)与受控变量的准连续在线传感数据混合。数据集很小,因为每次运行成本高昂且生成缓慢\[35 (https://arxiv.org/html/2606.26520#bib.bib18)\]。此外,不同细胞系、培养基和控制策略下的轨迹可能差异很大,因此适用于一种操作模式的模型可能难以迁移到另一种模式。先前的生物过程预测研究在更同质的设定下报告了有前景的一日或多步预测,但当模型在先前未见过的操作条件下部署时,性能通常会下降\[49 (https://arxiv.org/html/2606.26520#bib.bib40),51 (https://arxiv.org/html/2606.26520#bib.bib58),20 (https://arxiv.org/html/2606.26520#bib.bib42),32 (https://arxiv.org/html/2606.26520#bib.bib41)\]。先前的细胞培养预测工作利用了神经常微分方程(Neural ODEs)\[9 (https://arxiv.org/html/2606.26520#bib.bib37)\],因为它们天然支持连续时间预测和不规则采样\[12 (https://arxiv.org/html/2606.26520#bib.bib43)\],但仍存在三个实际空白:它们专注于过于简化的批次设定,假设跨批次异质性有限,并且没有充分利用来自新观测数据的批次中重调整。

本研究利用具有显著跨批次异质性的补料分批数据来解决这些局限性,这些数据会产生具有相似早期前缀但未来结果分岔的批次。图 1 (https://arxiv.org/html/2606.26520#S1.F1) 展示了乳酸的行为:几个批次在前几天几乎无法区分,然后分离成不同的模式。在这种情况下,单一的全局模型往往退化为“平均”未来,这在操作上没有用处,而且一个承诺单一轨迹的预测器无法表达数据中真正的模糊性。我们认为这本质上是一个*部分可观测性下的多未来预测*问题,其中一段观测历史可能对应多个合理的续接轨迹。为此,我们做出了三个主要贡献:

- •多路径即时微调(MP-JIT-FT),一个模型无关的自适应框架,检索局部相似的历史批次,将检索到的邻域聚类成候选未来模式,并为每个模式微调一个独立的模型副本,生成多个合理的预测,每个预测由基于重构的置信度评分,而不是单一的平均路径。
- •门控瓶颈潜在常微分方程(GB-Latent ODE),一个为 MP-JIT-FT 定制的预测模型,在标准 Latent ODE\[41 (https://arxiv.org/html/2606.26520#bib.bib38)\] 基础上增加了可学习的逐变量门控和掩码感知瓶颈,用于压缩高维稀疏输入,并在数据有限时改进学习\[35 (https://arxiv.org/html/2606.26520#bib.bib18)\]。我们采用 Latent ODE 主干,因为与标准神经常微分方程不同,它可以在批次运行过程中适应新观测到的数据,非常适合即时适应。
- •拉曼光谱数据融合,其中专用的机器学习软传感器将密集的拉曼光谱转换为预测变量的伪观测值。这增加了批次的可观测性——无论在第一批离线测量到达之前还是在其稀疏记录之间——并且我们分析了这些估计如何增强稀疏离线测量,以实现更可靠的 GB-Latent ODE 训练和批次中适应。

我们在涵盖 14 种实验条件的 38 次补料分批 5L 生物反应器批次上评估该框架,并使用局部发散度量分析每个组件在何时有帮助。论文的其余部分回顾相关背景,介绍方法和实验设置,并报告结果和局限性。请参阅标题 图 1:乳酸轨迹具有相似的早期值但不同的未来行为。 ## II 背景 ### II-A 细胞培养预测 现代生物制药,特别是单克隆抗体(mAbs),主要在哺乳动物细胞培养(如 CHO 细胞)中生产,其制造是一个复杂、严格调控、多阶段的过程,在质量源于设计(QbD)原则下运行\[46 (https://arxiv.org/html/2606.26520#bib.bib1),11 (https://arxiv.org/html/2606.26520#bib.bib64)\]。在 mAb 生产周期中——从抗体发现和克隆选择,通过上游工艺开发,到制造和制剂——机器学习(ML)越来越多地被用于从每个阶段产生的大量异构数据集中提取见解\[26 (https://arxiv.org/html/2606.26520#bib.bib31)\]。上游细胞培养阶段对于数据驱动建模尤其具有挑战性,因为实验成本高且运行缓慢,因此可用数据集通常小而高维\[35 (https://arxiv.org/html/2606.26520#bib.bib18)\]。在此背景下,数据驱动监测和控制的一个核心推动力是过程分析技术(PAT),这是一个监管和工程框架,提倡实时测量关键过程参数和质量属性,以支持及时的决策制定\[46 (https://arxiv.org/html/2606.26520#bib.bib1),19 (https://arxiv.org/html/2606.26520#bib.bib12)\]。在 PAT 工具箱中,软传感器——从现成的在线测量中估计难以测量变量的数据驱动推理模型——已被广泛采用,因为它们减少了对缓慢、昂贵或破坏性离线分析的依赖\[22 (https://arxiv.org/html/2606.26520#bib.bib25),21 (https://arxiv.org/html/2606.26520#bib.bib28)\]。特别是在细胞培养过程中,基于拉曼光谱的光谱软传感器现在通常用于实时估计代谢物和生物质浓度\[44 (https://arxiv.org/html/2606.26520#bib.bib15),45 (https://arxiv.org/html/2606.26520#bib.bib16),39 (https://arxiv.org/html/2606.26520#bib.bib17),38 (https://arxiv.org/html/2606.26520#bib.bib22)\],并且最近针对细胞培养监测的小数据、非平稳条件提出了自适应和即时学习软传感器\[36 (https://arxiv.org/html/2606.26520#bib.bib46),37 (https://arxiv.org/html/2606.26520#bib.bib63),25 (https://arxiv.org/html/2606.26520#bib.bib32),24 (https://arxiv.org/html/2606.26520#bib.bib33),27 (https://arxiv.org/html/2606.26520#bib.bib34)\]。区分软传感和预测很重要。软传感器,按构造,是一个*当前时间*估计器:它从同时观测到的其他变量推断出不能直接测量或测量成本高昂的变量的当前值\[22 (https://arxiv.org/html/2606.26520#bib.bib25),3 (https://arxiv.org/html/2606.26520#bib.bib29)\]。因此,成熟的软传感器描述当前过程状态,但通常不预测该状态将如何演变。主动干预——在批次性能下降之前调整补料、取样或控制设定点——反而需要提前几天预测过程轨迹,即多步超前预测,而传统的软传感公式通常不涵盖这一点\[32 (https://arxiv.org/html/2606.26520#bib.bib41)\]。这一差距激发了我们在这项工作中研究的多天预测问题。 在补料分批生物处理中,关键过程变量如乳酸和氨通常每天仅离线测量 1–2 次,导致观测稀疏且不规则。给定一个批次 \(r\),其不规则的观测时间为 \(T_r = \{t_{r,1} < \dots < t_{r,N_r}\}\),在第 \(j\) 个时间点收集一组多元测量 \(y_{r,j} \in \mathbb{R}^D\)。一些观测可能缺失,这由二进制掩码 \(\mathbf{m}_{r,j}\) 指示。对于预测,在某个截止时间 \(c < t_{r,N_r}\)(通常是批次早期),只有截止时间之前的观测作为上下文可用。目标是预测未来在时间 \(q_1, q_2, \dots\) 的变量,前提是给定上下文观测和一个软传感器,该传感器在密集时间网格上产生伪观测值(图 2)。这个过程有两个复杂因素:第一,上下文可以非常短(仅 1–2 天);第二,我们将多种实验条件视为一个训练集,这与大多数假设更同质数据的方法不同。我们通过自适应即时学习方法处理第一个问题,通过多路径处理第二个问题。 #### II-A1 跨模式异质性和多未来预测 图 1 强调了异质性的关键表现:具有几乎相同早期特征的批次可能发散成不同的未来轨迹。这种发散部分是由于不同但生理上合理的代谢状态,部分是由于实验干预(例如,在不同时间点切换补料培养基)。我们框架的关键见解是,在这种设定下,单一预测轨迹是不够的:*多个*合理的未来应该由预测器表示,每一个都附有一致性或置信度的估计。我们的 MP-JIT-FT 方法通过为局部分区内的模式微调独立的模型来实现这一点。 #### II-A2 即时学习 即时学习(JITL)是处理过程工业中小规模、非平稳数据集的成熟方法,包括细胞培养\[25 (https://arxiv.org/html/2606.26520#bib.bib32),24 (https://arxiv.org/html/2606.26520#bib.bib33)\]。给定一个查询点,JITL 检索类似的历史训练点,然后在这个局部检索集上训练一个局部模型。变体包括局部加权回归、基于高斯过程的模型或针对时间序列应用的基于相似性的检索。SRM 经常用于查询点检索,通常由欧几里得距离或马氏距离进行评分。我们的多路径扩展,MP-JIT-FT,不是训练单个全局模型,而是检索类似于当前上下文的历史批次,对检索到的局部邻域内的轨迹进行聚类,然后为每个聚类微调一个单独的 GB-Latent ODE。这产生了多个预测路径,每个路径由基于密集软传感器重构的置信度评分。因此,与假设单一全局模型的标准 JITL 不同,我们的方法明确承认多个未来路径。 #### II-B 用于时间序列预测的神经常微分方程 神经常微分方程(Neural ODEs)\[9 (https://arxiv.org/html/2606.26520#bib.bib37)\] 通过使用神经网络 \(f_\theta\) 参数化潜在状态的时间导数,将 ODE 求解器集成到神经网络中:\(\frac{dh(t)}{dt} = f_\theta(h(t), t)\)。给定初始状态 \(h(t_0)\),可以通过数值 ODE 求解器计算任意时间 \(t_1\) 的状态:\(h(t_1) = \text{ODESolve}(f_\theta, h(t_0), [t_0, t_1])\)。这种连续时间公式自然地适应不规则采样的观测,例如细胞培养数据中的观测。在预测应用中,神经常微分方程通常与循环神经网络(RNNs)结合,作为编码器-解码器架构的一部分。标准神经常微分方程的一个显著局限性是,虽然它们可以整合历史数据进行推理,但像标准 RNN 一样,它们不能轻易地利用部分观测批次的新数据来更新其潜在状态轨迹——通常,调整神经常微分方程的初始条件以*重新*求解整个轨迹是必要的。对于动态更新,潜在神经常微分方程\[41 (https://arxiv.org/html/2606.26520#bib.bib38)\] 通过分离编码和解码过程解决了这个问题。在潜在神经常微分方程中,一个*编码器*(通常是 RNN)将观测到的上下文轨迹映射到一个初始潜在状态 \(z_0\),然后一个独立的 ODE \(g_\psi\) 从这个初始状态演化潜在状态:\(\frac{dz(t)}{dt} = g_\psi(z(t), t)\)。然后通过解码器 \(h(z(t))\) 重建轨迹。至关重要的是,编码器和 ODE 是解耦的:给定新的观测值,可以简单地重新运行编码器来更新 \(z_0\),而无需重新训练。这使得潜在神经常微分方程非常适合即时适应,因为上下文信息在每次预测查询时自动被纳入;我们在工作中利用了这一特性。 #### II-C 时序建模中的掩码和门控 在时序建模中,掩码和门控机制是常用的技术。门控循环单元(GRU)及其变体通过学习更新和重置门来控制信息流。注意力机制在序列数据中动态加权输入或隐藏状态。这些概念可以扩展到多变量时间序列,其中“门控”选择性地调节输入维度或时间步长的贡献。在不规则或稀疏数据的背景下,掩码表示缺失的观测;我们的 GB-Latent ODE 包含一个掩码感知的中间表示(中间层),以指示哪些变量被观测到,以及一个学习到的逐变量门控,以调节输入维度对编码器隐藏状态更新的影响。 #### II-D 拉曼光谱用于过程监测 拉曼光谱是一种振动光谱技术,已被用作过程分析技术(PAT)工具,用于生物制药过程中的实时监测和过程控制\[44 (https://arxiv.org/html/2606.26520#bib.bib15),45 (https://arxiv.org/html/2606.26520#bib.bib16),39 (https://arxiv.org/html/2606.26520#bib.bib17),38 (https://arxiv.org/html/2606.26520#bib.bib22)\]。拉曼光谱采集相对较快,可以生成密集的时间序列光谱。在过程监测背景下,收集的拉曼光谱用于使用机器学习模型推断关键过程变量,例如代谢物浓度和活力细胞密度。这使其成为潜在有价值的数据源,用于丰富稀疏的离线分析,并可能提高早期预测的准确性。在这项工作中,我们构建并评估了一个专门的机器学习软传感器,该传感器将拉曼光谱作为输入,并为 GB-Latent ODE 模型预测的变量生成伪观测值。在训练期间,使用离线测量的值作为参考来训练软传感器,但软传感器的输出用于通过增加生物反应器过程的可观测性来替代 GB-Latent ODE 输入中的缺失测量。 ## III 方法 ### III-A 多路径即时微调(MP-JIT-FT) MP-JIT-FT 算法通过四个顺序步骤进行,总结在算法 1 中。第一步,给定一个部分观测的批次(“目标批次”),我们使用形状动态时间规整(Shape-DTW)距离(形状动态时间规整)从训练集中检索相似的运行历史,这是一种形状敏感的相似度度量\[42 (https://arxiv.org/html/2606.26520#bib.bib57)\]。第二步,我们将检索到的运行聚类成候选未来模式。这是通过应用 DBSCAN\[13 (https://arxiv.org/html/2606.26520#bib.bib6)\] 到表示检索到的批次未来部分的形状动态时间规整距离矩阵来执行的。第三步,对于每个聚类,我们*微调*一个单独的 GB-Latent ODE 模型副本。在将模型初始化到全局预训练权重后,我们专门对每个聚类中的批次迭代几个时期来调整参数。这种微调是轻量级的,因为每个聚类通常只包含几个批次。第四步,对于每个微调后的模型,我们预测目标批次的未来,并根据微调后的模型在局部邻域内的历史状态上*重构伪观测值*的质量,为每个预测路径附加一个*置信度分数*。具体来说,对于每个聚类,我们计算局部验证集上的平均归一化重构误差,并输出一个置信度分数 \(\rho_k = \exp(-\text{MAE}_k / \tau)\),其中 \(\tau\) 是一个温度参数。这产生了多个评分路径,而不是单一预测。 #### 算法 1 多路径即时微调(MP-JIT-FT)  **输入**:目标批次 \(r^*\),其部分观测历史 \(H_{r^*} = \{(t_i, \mathbf{y}_i, \mathbf{m}_i)\}_{i=1}^{L}\),观测截止时间 \(c\),全局模型 \(M_{\text{global}}\),形状动态时间规整距离参数  **输出**:预测路径集合 \(\{\hat{\mathbf{Y}}_k\}\) 与置信度分数 \(\{\rho_k\}\)  1. **检索**:计算形状动态时间规整距离 \(d(r^*, r)\) 到所有训练批次 \(r \in \mathcal{R}_{\text{train}}\),使用仅基于观测上下文时间点的时间序列截断。选择 \(K\) 个最近邻。  2. **聚类**:计算检索到的批次之间未来轨迹的形状动态时间规整距离矩阵。应用 DBSCAN 将其聚类成 \(N\) 个候选模式。  3. **微调**:对于每个聚类 \(j = 1, \dots, N\):     初始化 \(M_j \leftarrow M_{\text{global}}\)。     在聚类 \(j\) 批次上微调 \(M_j\),最小化重构/预测损失。  4. **预测与评分**:对于每个微调后的模型 \(M_j\):     预测目标批次在所需未来时间的未来观测值 \(\hat{\mathbf{Y}}_j\)。     计算局部验证预测误差 \(\text{MAE}_j\)。     设置置信度 \(\rho_j = \exp(-\text{MAE}_j / \tau)\)。     返回 \(\{(\hat{\mathbf{Y}}_j, \rho_j)\}_{j=1}^{N}\)。 ### III-B 门控瓶颈潜在常微分方程(GB-Latent ODE) 这项工作使用的预测模型是 GB-Latent ODE,这是一种建立在潜在常微分方程\[41 (https://arxiv.org/html/2606.26520#bib.bib38)\] 基础上的架构,其中编码器和解码器被联合预训练。该架构由几个关键组件组成:一个逐变量门控机制、一个掩码感知瓶颈、一个反向时间 ODE-RNN 编码器、一个前向时间 ODE 解码器,以及一个仅通过确定性 L2 损失(无 KL 散度)进行训练的决策。目标函数仅最小化平方误差: \(\mathcal{L} = \sum_{t_i \le c} \lVert y_i - \widehat{y}_i \rVert^2 + \sum_{t_i > c} \lVert y_i - \widehat{y}_i \rVert^2 = \mathcal{L}_{\text{recon}} + \mathcal{L}_{\text{forecast}}\)。采用该目标是因为当 MP-JIT-FT 模型已经生成多路径预测时,概率预测不那么关键。虽然直接优化平方误差与点预测准确性\[15 (https://arxiv.org/html/2606.26520#bib.bib68)\] 更一致,但它避免了 ELBO 在重构保真度和先验正则化之间的权衡\[29 (https://arxiv.org/html/2606.26520#bib.bib69)\],并减少了对 VAE 失败模式(如后验崩塌)的暴露\[17 (https://arxiv.org/html/2606.26520#bib.bib70)\]。虽然上述并非所有组件都是单独新颖的,但我们的贡献在于针对细胞培养过程预测应用的任务特定集成。图 2 (https://arxiv.org/html/2606.26520#S3.F2) 展示了由此产生的架构,我们现在根据实现中使用的精确计算流程详细描述其前向计算。 #### III-B1 输入表示 设 \(\mathbf{x}_{\text{ctx}} \in \mathbb{R}^{B \times L_{\text{ctx}} \times D}\) 表示在预测原点之前观测到的多元上下文轨迹批次。为避免上下文和未来时间戳之间的歧义,我们将观测到的上下文时间戳表示为 \(c_{1:L_{\text{ctx}}} = (c_1, \dots, c_{L_{\text{ctx}}})\),将未来查询时间戳表示为 \(q_{1:L_{\text{fut}}} = (q_1, \dots, q_{L_{\text{fut}}})\),并且 \(c_1 < \dots < c_{L_{\text{ctx}}} < q_1\)。对应于输出维度大小。我们进一步将上下文掩码 \(\mathbf{m}_{\text{ctx}}\) 定义为与 \(\mathbf{x}_{\text{ctx}}\) 同形状的二进制矩阵。#### III-B2 逐变量门控 我们的门控机制引入了一个可学习的向量 \(\mathbf{a} \in \mathbb{R}^D\),其门控权重为 \(g_j = \sigma(a_j)\),其中 \(\sigma\) 是 Sigmoid 函数。这些权重逐元素地乘以输入变量:\(\mathbf{x}_{\text{ctx}}^{\text{gated}} = \mathbf{g} \odot \mathbf{x}_{\text{ctx}}\),其中 \(\odot\) 表示逐变量乘法。学习到的门控自动确定对预测任务最关键的变量维度,并衰减包含噪声或常量信息的维度。重要的是,门控权重在编码器和解码器中一致地应用,确保两个子网络处理相同过滤后的输入空间。在编码器中,门控在掩码感知瓶颈部分之前应用,用于隐藏状态初始化和后续更新机制。在解码器中,门控同样应用于前向传递的解码器中。#### III-B3 掩码感知瓶颈 设 \(\bar{\mathbf{m}}_{\text{ctx}} = \mathbf{g} \odot \mathbf{m}_{\text{ctx}}\) 表示逐变量门控掩码(逐变量门控后的掩码)。对于每个时间步 \(i\),\(\bar{\mathbf{m}}_{\text{ctx}}[i,:]\) 包含门控版本的每变量指示符。然后掩码连接:\(\mathbf{e}_i = \text{Concat}(\mathbf{x}_{\text{ctx}}^{\text{gated}}[i,:], \bar{\mathbf{m}}_{\text{ctx}}[i,:], \mathbf{i}_i)\),其中 \(\mathbf{i}_i\) 是时间的时间表示维度。连接后的表示 \(\mathbf{e}_i \in \mathbb{R}^{3D + d_t}\) 形成掩码感知瓶颈,压缩为全连接层。瓶颈结构强制编码器将所有变量与缺失模式的信息一起打包。#### III-B4 上下文编码 编码器组件处理经过瓶颈处理的表示 \(\mathbf{e}_i\) 及其关联时间戳 \(c_i\)。这里使用的编码器是具有 ODE 驱动状态演化的门控循环单元(GRU)变体。在时间上从最早到新近,GRU 以标准的从左到右方式处理时间序列。设 \(h_i^{\text{new}}\) 为时间戳 \(i\) 处的 GRU 更新后的候选隐藏状态。标准的从左到右编码从 \(h_0 = 0\) 开始,并在每个观测到的时间步进行更新。我们稍后将在反向时间编码设置中描述修改后的更新规则。#### III-B5 反向时间编码 由于前向时间编码在解码器之前处理整个序列,该模型隐含地知道未来的所有观测值,包括预测原点之后的部分。然而,在部分可观测批次的情况下,我们可能希望在上下文观测完成后立即做出预测。为了处理这种因果约束,我们使用*反向时间*编码器:给定时间戳的完整上下文,编码器从最近的观测时间戳 \(c_{L_{\text{ctx}}}\) 开始向后处理,并向最早的上下文时间 \(c_1\) 演化隐藏状态。这确保了初始化潜在状态所需的信息仅来自上下文观测。编码从 \(h_0 = 0\) 开始。对于每个上下文时间索引 \(i\)(从最早时间 \(c_{L_{\text{ctx}}}\) 反向),我们首先使用 ODE 求解器在连续时间内演化隐藏状态:\(h_i^- = \text{ODESolve}(f_\theta, h_{i-1}, [c_{i-1}, c_i])\)。然后潜在地应用 GRU 更新:\(h_i = \text{GRUCell}(e_i, h_i^-)\)。设 \(g_j = \sigma(a_j) > 0\)。我们定义一个指示在时间步 \(i\) 是否存在任何有效观测的标量指示符:\(\text{has\_obs}_i = \mathbf{1}\!\left(\sum_{j=1}^D \bar{m}_{i,j} > 0\right)\)。这里我们使用未门控的掩码,因为 \(g_j = \sigma(a_j) > 0\),所以检查门控掩码在数学上是等价的,但不够直接。最终的上下文观测被整合:\(h_{L_{\text{ctx}}} = \text{has\_obs}_{L_{\text{ctx}}} \cdot \text{GRUCell}(e_{L_{\text{ctx}}}, h_{L_{\text{ctx}}^-}) + (1 - \text{has\_obs}_{L_{\text{ctx}}}) \cdot h_{L_{\text{ctx}}^-}\)。然后,对于 \(i = L_{\text{ctx}}-1, \dots, 1\),隐藏状态在相邻观测时间戳之间向后演化,并在整合时更新:\(h_i^- = \text{ODESolve}(f_\theta, h_{i+1}, [c_{i+1}, c_i]), \quad h_i^{\text{new}} = \text{GRUCell}(e_i, h_i^-), \quad h_i = \text{has\_obs}_i \cdot h_i^{\text{new}} + (1 - \text{has\_obs}_i) \cdot h_i^-\)。如果一个时间点不包含有效观测,则跳过 GRU 更新,并保留 ODE 演化的隐藏状态。因此,编码器仅依赖于观测到的上下文时间戳,并且与未来查询时间戳的选择无关。#### III-B6 投影、前向求解和解码 在反向时间编码器处理完完整上下文后,最早时间的隐藏状态被映射到解码器潜在初始条件 \(\mathbf{z}_0 = \mathbf{W}_z \mathbf{h}_1 + \mathbf{b}_z\),这是在最早上下文时间表达的整个观测上下文的压缩表示。然后,模型构造一个单一的升序时间向量 \(t_{\text{all}} = [c_{1:L_{\text{ctx}}}; q_{1:L_{\text{fut}}}]\),并执行*一次*跨越观测时间和未来时间的连续求解:\(\frac{d\mathbf{z}(t)}{dt} = g_\psi(\mathbf{z}(t), t), \quad \mathbf{z}(t_1) = \mathbf{z}_0, \quad \mathbf{Z}_{\text{traj}} = \text{ODESolve}(g_\psi, \mathbf{z}_0, t_{\text{all}})\)。在完整跨度上的单次求解保持了潜在轨迹的时间一致性。每个潜在状态由解码器 \(\text{Decode} = \text{Softplus} \circ \text{Linear}(H_{\text{dec}}, 9)\) 解码。# 多路径自适应门控瓶颈潜在常微分方程与拉曼数据融合用于细胞培养过程预测 来源: https://arxiv.org/html/2606.26520 Johnny Peng, Thanh Tung Khuat, Ellen Otte, Katarzyna Musial, and Bogdan GabrysJohnny Peng, Thanh Tung Khuat, Katarzyna Musial, and Bogdan Gabrys 就职于复杂自适应系统实验室,数据科学研究所,悉尼科技大学,新南威尔士州 2007,澳大利亚 \(e\-mail: johnny\.peng@student\.uts\.edu\.au; thanhtung\.khuat@uts\.edu\.au; Katarzyna\.Musial\-Gabrys@uts\.edu\.au; bogdan\.gabrys@uts\.edu\.au\)。Ellen Otte 就职于 CSL Innovation,墨尔本,维多利亚州 3000,澳大利亚 \(e\-mail: ellen\.otte@csl\.com\.au\)。通讯作者:Johnny Peng。###### 摘要 哺乳动物细胞培养过程是许多生物制药生产的基础,但保持过程正常进行相当困难:关键过程参数在数天内发生漂移,且异常趋势往往在确认时已来不及干预。早期、多天的预测可以及时调整补料、取样和控制,但生物过程预测颇具挑战,因为测量稀疏且采样不规则,不同细胞系和培养基的操作条件异质性高,并且早期行为几乎相同的批次可能在未来分岔至不同的结果。我们提出了一种自适应框架,将门控瓶颈潜在常微分方程(GB-Latent ODE)与多路径即时微调(MP-JIT-FT)相结合。GB-Latent ODE 在标准 Latent ODE 的基础上增加了可学习的逐变量门控和掩码感知瓶颈,用于压缩高维稀疏输入,从而在有限数据下改进学习。给定一个部分观测的批次,MP-JIT-FT 检索相似的历史轨迹,将局部邻域聚类成候选模态,并为每个模态微调一个独立模型,以生成多个合理的路径,每个路径附有一个基于重构的置信度分数,而不是单一的平均预测。我们进一步融合了拉曼光谱数据:一个机器学习软传感器将密集的拉曼光谱转换为伪观测值,以丰富稀疏的离线测量,从而实现更稳健的训练。在涵盖 14 种条件的 38 次补料分批 5L 生物反应器批次上,采用拉曼融合的 MP-JIT-FT 取得了最佳平均排名,并在 9 个目标变量中的 8 个上优于全局 Latent ODE 基线。通过使用局部发散度量,我们表明当局部相似的前缀发生分岔时,多路径方法带来的增益最大;而当早期动态能够代表后期行为时,拉曼融合帮助最大。 ## I 引言 哺乳动物细胞培养,特别是中国仓鼠卵巢(CHO)细胞,是治疗性蛋白质和单克隆抗体的主要生产宿主\[26 (https://arxiv.org/html/2606.26520#bib.bib31),11 (https://arxiv.org/html/2606.26520#bib.bib64)\]。它们的行为受耦合的代谢、环境和控制动力学支配,这些动力学在 1 到 2 周的运行周期中演变,乳酸或氨等代谢物的早期微小偏差可能累积成不合格批次\[8 (https://arxiv.org/html/2606.26520#bib.bib2),14 (https://arxiv.org/html/2606.26520#bib.bib4)\]。因为人工干预——调整补料、取样或控制设定点——必须在这些趋势变得不可逆转之前进行,生物制药制造商越来越多地需要在批次早期阶段获得细胞培养轨迹的准确多天预测,而非事后分析\[32 (https://arxiv.org/html/2606.26520#bib.bib41),46 (https://arxiv.org/html/2606.26520#bib.bib1),19 (https://arxiv.org/html/2606.26520#bib.bib12)\]。产生这样的预测很困难,原因有几个。生物反应器数据采样不规则:稀疏的离线分析(通常每天仅一到三次)与受控变量的准连续在线传感数据混合。数据集很小,因为每次运行成本高昂且生成缓慢\[35 (https://arxiv.org/html/2606.26520#bib.bib18)\]。此外,不同细胞系、培养基和控制策略下的轨迹可能差异很大,因此适用于一种操作模式的模型可能难以迁移到另一种模式。先前的生物过程预测研究在更同质的设定下报告了有前景的一日或多步预测,但当模型在先前未见过的操作条件下部署时,性能通常会下降\[49 (https://arxiv.org/html/2606.26520#bib.bib40),51 (https://arxiv.org/html/2606.26520#bib.bib58),20 (https://arxiv.org/html/2606.26520#bib.bib42),32 (https://arxiv.org/html/2606.26520#bib.bib41)\]。先前的细胞培养预测工作利用了神经常微分方程(Neural ODEs)\[9 (https://arxiv.org/html/2606.26520#bib.bib37)\],因为它们天然支持连续时间预测和不规则采样\[12 (https://arxiv.org/html/2606.26520#bib.bib43)\],但仍存在三个实际空白:它们专注于过于简化的批次设定,假设跨批次异质性有限,并且没有充分利用来自新观测数据的批次中重调整。

本研究通过利用具有显著跨批次异质性的补料分批数据来解决这些局限性,这些数据会产生具有相似早期前缀但未来结果分岔的批次。图 1 (https://arxiv.org/html/2606.26520#S1.F1) 展示了乳酸的行为:几个批次在前几天几乎无法区分,然后分离成不同的模式。在这种情况下,单一的全局模型往往退化为“平均”未来,这在操作上没有用处,而且一个承诺单一轨迹的预测器无法表达数据中真正的模糊性。我们认为这本质上是一个*部分可观测性下的多未来预测*问题,其中一段观测历史可能对应多个合理的续接轨迹。为此,我们做出了三个主要贡献:

- •多路径即时微调(MP-JIT-FT),一个模型无关的自适应框架,检索局部相似的历史批次,将检索到的邻域聚类成候选未来模式,并为每个模式微调一个独立的模型副本,生成多个合理的预测,每个预测由基于重构的置信度评分,而不是单一的平均路径。
- •门控瓶颈潜在常微分方程(GB-Latent ODE),一个为 MP-JIT-FT 定制的预测模型,在标准 Latent ODE\[41 (https://arxiv.org/html/2606.26520#bib.bib38)\]

相似文章

一种基于Latent ODE的电影心脏磁共振时空建模方法

arXiv cs.AI

本文提出了一种潜在动态模型,使用心率感知的神经ODE和基于图的网格自编码器,对电影心脏磁共振中的全周期心室运动进行建模。该模型应用于72,386名英国生物样本库参与者,在心衰风险预测方面优于传统心脏标志物。

基于最优传输势的多边缘流匹配

arXiv cs.LG

提出OTP-FM,一种新颖的多边缘流匹配方法,利用最优传输势来软性地引导流通过中间边缘分布,在单细胞RNA测序、海洋学和气象学数据集上实现了最先进的性能。