幽灵吸引子网络：用于闭环序列生成的盆地结构动态解码器

arXiv cs.LG 2026/06/18 04:00 论文

摘要

提出幽灵吸引子网络作为闭环序列生成的盆地结构动态解码器，相比大规模Transformer和扩散模型实现了显著的效率提升，同时保持高精度和低延迟。

arXiv:2606.18315v1 公告类型：新摘要：使用大规模Transformer和扩散解码器进行序列输出生成时，其内存成本随序列长度增长，且需要迭代的逐步骤计算。用小型前馈解码器替换它们可以恢复效率，但会产生非结构化的潜在表示，从而限制闭环控制：相位条件化的动作生成和跨步骤潜在状态携带都需要具有稳定盆地的潜在几何结构。本文提出幽灵吸引子网络，这是一种理论上推导的动态解码器，其潜在状态在具有漂移的学习势函数下演化，并通过构造产生盆地-吸引子结构。三个期望特性（多模态性、解码器级单次切换和恒定内存）驱动了势函数-漂移形式，模式转换表现为鞍结分岔和幽灵吸引子逃逸。一种层次化的相空间分解将一阶盆地收敛与二阶本体感觉精修分开。实验上，一个端到端训练（结合行为克隆和对比学习目标）的幽灵网络，展示了其势函数中预测的梯度流收缩，在1430个保留样本上经过五个积分步骤后梯度范数衰减了67%。Ghost被评估为机器人动作解码器。一个230万参数的Ghost在离线精度上匹配了10.7亿参数的扩散Transformer，参数数量减少462倍，延迟降低32倍，并且在离线均方误差上比五种替代的200万参数解码器（MLP、神经ODE、CVAE、Transformer、单步扩散）提高了5.9%至29%。在LIBERO-10闭环基准测试中，基于Ghost的盆地结构潜在状态进行相位条件化，相比前馈MLP基线获得了13.5个百分点的成功提升，而持久潜在集成达到了95.7%的最终成功率。

查看原文

查看缓存全文

缓存时间: 2026/06/18 05:41

# 幽灵吸引子网络：基于流域结构的动力解码器用于闭环序列生成  
来源：https://arxiv.org/html/2606.18315  
Tianyu Wang, Ying Wang, Zhihao Liu, Xi Vincent Wang, and Lihui Wang  

本工作已提交至IEEE 考虑发表。版权可能在不另行通知的情况下转移，此后该版本可能不再可访问。  

本研究工作得到了瑞典卓越生产研究中心（XPRES）的支持。  

Tianyu Wang, Zhihao Liu, Xi Vincent Wang, and Lihui Wang 任职于瑞典皇家理工学院（KTH）生产工程系，斯德哥尔摩，瑞典（通讯作者：Tianyu Wang，电子邮箱：[email protected]）。  
Ying Wang 任职于瑞典皇家理工学院（KTH）决策与控制系统系，斯德哥尔摩，瑞典。  

###### 摘要  

基于大规模 Transformer 和扩散解码器的序列输出生成，其内存成本随序列长度增长，且每步迭代计算开销较大。用小型前馈解码器替代它们可以恢复效率，但会产生非结构化的潜在表示，从而限制闭环控制：相位条件化的动作生成和跨步骤潜在状态传递都需要一个具有稳定流域的潜在空间几何结构。本文提出 Ghost Attractor Networks（幽灵吸引子网络），这是一种理论上推导的动力解码器，其潜在状态在学习到的势能场（potential）下演化，并带有漂移项，通过构造产生流域-吸引子结构。三个需求（多模态、解码器级单次切换和恒定内存）激发了势能-漂移形式，模式转换作为鞍结分岔（saddle-node bifurcations）发生，并伴随幽灵吸引子逃逸。一种层次化的相空间分解将一阶流域收敛与二阶本体感觉细化分开。实验上，使用行为克隆和对比目标进行端到端训练的 Ghost 模型，在其势能中表现出预测的梯度流收缩，在 1430 个保留样本上，梯度范数在五个积分步骤中衰减了67%。Ghost 被评估为机器人动作解码器。一个 230 万参数的 Ghost 模型在离线精度上与 10.7 亿参数的扩散 Transformer 相当，参数数量减少 462 倍，延迟降低 32 倍，并且在离线均方误差上比五种替代的 200 万参数解码器（MLP、神经 ODE、CVAE、Transformer、单步扩散）好 5.9% 到 29%。在 LIBERO-10 闭环基准测试中，基于 Ghost 流域结构潜在空间的相位条件化比前馈 MLP 基线成功率提高 13.5 个百分点，持久潜在集成达到 95.7% 的最终成功率。

## I. 引言  

用于序列输出生成的大规模神经网络在机器人学、自主决策和具身人工智能领域取得了快速进展\[1 (https://arxiv.org/html/2606.18315#bib.bib1), 2 (https://arxiv.org/html/2606.18315#bib.bib2), 3 (https://arxiv.org/html/2606.18315#bib.bib3)\]。然而，这些架构共享一个结构性限制：时间上下文与交互规划范围线性增长，模式转换需要积累足够多的新 token 来覆盖先前的上下文。对于一个以 100 Hz 生成输出的网络，切换行为模式并非瞬时完成；它需要数十到数百个时间步的上下文积累，在此期间网络产生模糊或不正确的输出。这一限制根植于主导性的架构范式。Transformer 的键值缓存\[4 (https://arxiv.org/html/2606.18315#bib.bib4)\]、迭代扩散解码器\[5 (https://arxiv.org/html/2606.18315#bib.bib5)\]和上下文学习历史\[6 (https://arxiv.org/html/2606.18315#bib.bib6)\]都将时间上下文编码为不断增长的 token 序列，内存成本为 O(t)。因此，每步推理的规模同时随序列长度和解码器大小增长：一个十亿参数的扩散 Transformer 头在每个控制步骤需要多次去噪迭代，而具有全注意力的 Transformer 解码器每次前向传播都要读取其整个缓存历史。在以 50–100 Hz 部署时，这种组合成本消耗了每步时间预算的大部分，留给感知、控制或安全逻辑的空间很小。对上下文积累的依赖也延迟了行为转换，因为解码器必须观察到足够的新 token 才能使其输出反映新模式，这使得瞬时模式切换在结构上不可行。

一个直接的补救措施是用小型前馈网络（MLP、神经 ODE 或单步扩散）替换大型解码器。这恢复了效率，但引入了另一个专门针对闭环控制的缺陷。具有模态行为结构的序列解码对部署的策略施加了两个耦合要求：(i) 通过外部相位条件化信号实现跨定性不同子阶段的专业化，以及 (ii) 由于每个观测都是部分的，通常通过将解码器自身的潜在状态 z_t 带入下一次前向传播来实现时间步之间的集成。这两种机制都预先假定潜在空间在几何上组织成稳定的流域。相位条件化随后将轨迹路由到定性不同的流域之间，而不是扰动一个通用的特征向量；而持久 z 传递仅在每个流域有一个平衡点供潜在状态在步骤之间落定时才保持稳定。一个普通的前馈解码器不提供这样的几何结构。在匹配的参数预算下，无状态解码器上的相位条件化会破坏闭环性能，而相同机制在具有流域结构的潜在空间上则产生显著收益（在第五部分量化，见 https://arxiv.org/html/2606.18315#S5）。

生物神经回路表明，上述两个缺陷不需要相互权衡。在皮层和基底神经节中，行为库被编码为神经状态空间的离散动力学区域（流域），转换通过连续轨迹实现，这些轨迹在进入新区域之前经过不稳定的鞍区\[7 (https://arxiv.org/html/2606.18315#bib.bib7), 8 (https://arxiv.org/html/2606.18315#bib.bib8), 9 (https://arxiv.org/html/2606.18315#bib.bib9)\]。这种表示既高效（没有增长的 token 缓存，潜在状态具有固定维度）又具有几何结构，为不同模式提供流域，支持稳定的传递和快速转换。这一生物学示例激励了一个架构原则：将行为模式编码为学习到的势能场的流域，并让模式转换作为由外部上下文驱动的连续轨迹出现，而不是来自 token 积累（大型解码器的失败）或无结构的特征映射（小型解码器的失败）。

本文介绍 Ghost Attractor Networks，这是一种同时解决上述效率和结构缺陷问题的神经架构。核心机制是 ghost attractor（幽灵吸引子）\[10 (https://arxiv.org/html/2606.18315#bib.bib10)\]：状态空间中的一个区域，其中矢量场几乎消失，暂时困住轨迹，然后沿逃逸通道将它们释放到不同的行为流域。该网络学习一个势能景观，其拓扑结构将不同的行为模式编码为吸引子流域，并利用幽灵吸引子逃逸动力学来介导转换。因此，上下文变化在一个解码器前向传播内产生切换后的动作，而闭环相位条件化和持久 z 传递所依赖的流域几何结构则继承自架构本身。在端到端训练于多任务数据的 Ghost 模型中，直接验证了这种吸引子机制的存在：梯度范数 ‖∇_z U‖ 在五个积分步骤中收缩了 67%（图6 (https://arxiv.org/html/2606.18315#S5.F6)），与架构形式所隐含的梯度流特征一致。这解决了序列解码中的三个开放挑战：与规划范围无关的内存成本、解码器级单次行为切换，以及支持闭环部署的结构化多任务压缩。每个挑战在下面的贡献中详细讨论。

本文的贡献如下：  
1. 提出了 Ghost Attractor Networks，一种恒定内存的动力解码器。该解码器将行为模式编码为学习到的势能场的流域，并通过幽灵吸引子逃逸在它们之间切换。由此产生的潜在几何结构支持相位条件化和持久 z 传递。该架构在同一个势能-漂移框架内使用层次化的两阶段积分：一阶流域收敛，随后在流域最小值附近进行二阶本体感觉细化。  
2. 从三个需求（多模态、解码器级单次切换和恒定内存）推导出这种形式，并通过形式分析支持：驻留时间缩放（引理1 (https://arxiv.org/html/2606.18315#Thmlemma1)）、幽灵介导的切换（命题1 (https://arxiv.org/html/2606.18315#Thmproposition1)）、组合表达能力（推论1 (https://arxiv.org/html/2606.18315#Thmcorollary1)）以及局部 Lyapunov 稳定性论证。  
3. 在训练好的模型中经验验证了该架构。在训练好的 Ghost 模型中直接观察到了预测的梯度流收缩（图6 (https://arxiv.org/html/2606.18315#S5.F6)）。一个 230 万参数的 Ghost 解码器在参数数量和推理延迟方面相对于 10.7 亿参数的扩散 Transformer 实现了数量级的减少，离线模仿误差低于五个相同预算的解码器替代方案，并且在匹配参数预算下闭环成功率远高于无状态基线。详细比较、消融研究和外部基准锚定将在第五部分（https://arxiv.org/html/2606.18315#S5）中展开。

## II. 相关工作  

### II-A 神经动力系统  

神经 ODE\[11 (https://arxiv.org/html/2606.18315#bib.bib11)\] 使用神经网络参数化连续时间动力学，但会产生平滑轨迹，没有用于突然模式转换的机制。现代 Hopfield 网络\[12 (https://arxiv.org/html/2606.18315#bib.bib12)\] 将吸引子基记忆与 Transformer 注意力联系起来，但侧重于模式检索而非序列输出生成。哈密顿神经网络\[13 (https://arxiv.org/html/2606.18315#bib.bib13)\] 施加能量守恒结构用于物理动力学学习，同样没有行为切换机制。鞍结分岔附近的幽灵吸引子已在物理系统中得到研究\[14 (https://arxiv.org/html/2606.18315#bib.bib14), 10 (https://arxiv.org/html/2606.18315#bib.bib10)\]，Durstewitz 等人\[15 (https://arxiv.org/html/2606.18315#bib.bib15)\] 认为生物学习中的突然转变是由类似于幽灵吸引子逃逸的分岔诱导的状态空间重组介导的。所提出的工作将这个原理转化为一个可学习的、端到端训练的神经解码器，其中幽灵机制是潜在动作空间中的一个设计好的架构原语，而不是一个涌现现象。

### II-B 自适应策略架构  

元强化学习通过学习的初始化\[16 (https://arxiv.org/html/2606.18315#bib.bib16)\]、上下文条件化策略\[17 (https://arxiv.org/html/2606.18315#bib.bib17)\] 或超网络生成的参数实现快速任务适应，但通常需要在线梯度计算或情节上下文积累。上下文 RL\[6 (https://arxiv.org/html/2606.18315#bib.bib6), 18 (https://arxiv.org/html/2606.18315#bib.bib18), 19 (https://arxiv.org/html/2606.18315#bib.bib19)\] 通过注意力机制对交互历史实现零权重适应；然而，增长的 token 序列带来 O(t) 内存成本，并且需要积累足够的新观测才能改变行为。循环架构如 GRU 和状态空间模型保持恒定内存，但将行为模式隐式编码在权重矩阵中，需要缓慢的上下文集成才能切换。所提出的架构则通过将模式编码为学习到的势能场中的显式流域，实现由低维调制信号驱动的单步转换。

### II-C 生成式序列解码  

扩散策略\[5 (https://arxiv.org/html/2606.18315#bib.bib5), 20 (https://arxiv.org/html/2606.18315#bib.bib20)\] 通过迭代去噪生成动作序列。流匹配\[21 (https://arxiv.org/html/2606.18315#bib.bib21)\] 提供了一种无模拟的训练替代方案，具有更直接的生成路径，而一致性模型\[22 (https://arxiv.org/html/2606.18315#bib.bib22), 23 (https://arxiv.org/html/2606.18315#bib.bib23)\] 减少了所需的去噪步骤数。所有这些迭代生成方法都会带来与迭代次数成比例的每步开销。RDT-1B\[24 (https://arxiv.org/html/2606.18315#bib.bib24)\] 将扩散 Transformer 解码器推至十亿参数以实现多任务能力，Tan 等人\[25 (https://arxiv.org/html/2606.18315#bib.bib25)\] 通过视觉运动潜在扩散建模多任务操作。相比之下，所提出的动力解码器用固定的小步数积分替换迭代去噪，并以低得多的参数成本达到可比的精度。

### II-D 具有序列解码器的基础模型  

最近的视觉-语言-动作（VLA）机器人基础模型在一个统一架构中融合了感知、语言和动作生成，并在大规模演示数据上进行训练。RT-1/RT-2\[26 (https://arxiv.org/html/2606.18315#bib.bib26), 1 (https://arxiv.org/html/2606.18315#bib.bib1)\] 确立了基于 Transformer 策略的 VLA 范式；GR00T N1\[2 (https://arxiv.org/html/2606.18315#bib.bib2)\] 将其扩展到人形机器人，采用双系统设计，将视觉语言骨干与扩散 Transformer 解码器分开。OpenVLA\[3 (https://arxiv.org/html/2606.18315#bib.bib3)\], Octo\[27 (https://arxiv.org/html/2606.18315#bib.bib27)\], π0\[28 (https://arxiv.org/html/2606.18315#bib.bib28)\], OpenVLA-OFT\[29 (https://arxiv.org/html/2606.18315#bib.bib29)\] 和 Dream-VLA\[30 (https://arxiv.org/html/2606.18315#bib.bib30)\] 探索了相同范式的变体。所有这些方法都依赖于带有 O(t) 内存增长和大每步参数量的 Transformer 或扩散解码器。所提出的工作是互补的：保留预训练骨干，仅将解码器替换为恒定内存的动力替代方案。

### II-E 动力学运动基元与吸引子景观  

经典 Hopfield 网络\[31 (https://arxiv.org/html/2606.18315#bib.bib31)\] 将模式存储为不动点吸引子。动力学运动基元（DMPs）\[32 (https://arxiv.org/html/2606.18315#bib.bib32), 33 (https://arxiv.org/html/2606.18315#bib.bib33)\] 将运动行为编码为稳定的极限环或点吸引子，而动力系统稳定估计器（SEDS）\[34 (https://arxiv.org/html/2606.18315#bib.bib34)\] 从演示中学习全局稳定的非线性动力学。然而，所有 DMP 和 SEDS 变体要么需要每个模式一个独立的动力系统，要么需要显式的离散监督器来选择模式；动力系统本身不执行转换。所提出的框架移除了这个离散监督器：模式切换成为单个势能景观的一个涌现特性，其中调制将一个流域湮灭成一个幽灵区域，轨迹逃逸到另一个流域。这种生物学...

幽灵吸引子网络：用于闭环序列生成的盆地结构动态解码器

相似文章

Controlled Dynamics Attractor Transformer

Transformer 记忆的吸引子几何：从冲突仲裁到自信幻觉

用于生成式机构综合的离散自回归Transformer

幻觉作为轨迹承诺：Transformer生成中非对称吸引子动力学的因果证据

用于动力系统重构的循环神经网络的时间并行训练

提交意见反馈