AURA: 恒定显存下的机器人策略动作门控记忆

arXiv cs.AI 2026/06/03 04:00 论文

robot-policies memory-compression kv-cache action-gating embodied-ai edge-computing vision-language-action

摘要

AURA-Mem 提出了一种恒定大小的机器人策略记忆，通过一个学习后的门控机制，仅在当前观测会改变下一步动作时才进行写入。它能够以显著更少的写入次数和恒定的显存消耗匹配基准精度，解决了长周期机器人任务中的内存瓶颈问题。

arXiv:2606.02775v1 公告类型：新摘要：KV-cache 是数据中心的理想记忆，但却是机器人的不当记忆。数据中心推理将大量短请求分批处理并重置，使注意力缓存在众多请求中摊销。而具身智能体则在带宽受限的边缘硬件上运行一个长时间、不重置的回合，其中高带宽内存和闪存稀缺，闪存写入寿命有限，内存写入而非计算可能成为制约瓶颈。 AURA-Mem（动作效用循环自适应记忆）针对这一场景设计。它在冻结的视觉-语言-动作骨干网络外包裹一个恒定大小的循环记忆和一个学习后的门控，该门控仅在当前观测会改变下一步动作时进行写入：一种知道何时保持沉默的记忆。与基于重建的记忆不同，该门控直接针对闭环动作误差信号进行训练。无论时间跨度如何，其推理状态固定为 4,224 字节，而 KV-cache 在 100,000 步时会增长 6,061 倍。在受控的合成基准测试中，AURA-Mem 在精度上匹配最佳的 O(1) 基线，同时写入次数减少 5.19-6.13 倍，在较简单配置下最多减少 9.19 倍。预算匹配的随机和定期调度无法恢复这一增益，从而将优势归因于动作惊奇信号。在 LIBERO-Long 上训练的闭环 OpenVLA-OFT 7B 面板（每个机械臂 60 个回合）中，该门控不会损害成功率：AURA-Mem 匹配无门控基础策略（0.233）并略超始终写入的 KV 臂（0.217），同时写入次数减少 7.0 倍并保持恒定内存。我们还实例化了一个近似信息状态的值损失界限作为方法学演示；在此规模下，该界限是空泛的而非保证。

查看原文

查看缓存全文

缓存时间: 2026/06/03 09:41

# AURA: 面向恒定VRAM的机器人策略动作门控记忆
来源：https://arxiv.org/html/2606.02775 \(2026年6月\)

###### 摘要

KV缓存是数据中心的正确记忆，却是机器人的错误记忆。在数据中心，大量短请求被批处理和重置，注意力缓存的成本得以摊销。而具身智能体则运行单一且永不重置的无限长episode，其缓存在带宽受限的边缘硬件上无限增长——这些硬件的高带宽内存和闪存稀缺且写入耐久性有限——而内存写入，而非计算，成为了约束瓶颈。AURA-Mem（动作效用循环自适应记忆）正是为此场景而设计：一种固定大小的记忆模块，环绕在冻结的视觉-语言-动作骨干网络周围，配备一个学习型门控，仅在当前观测会改变下一个动作时才执行写入——即一种懂得何时保持静默的记忆。该门控直接针对闭环动作误差信号进行训练，而非重构损失。其推理状态固定为4,224字节，与episode长度无关，相比之下，在100,000步时增长的KV缓存大6,061倍。在受控的合成基准测试中，AURA-Mem在精度上匹配最佳的O(1)基线，同时写入次数减少5.19–6.13倍（在较简单配置下可达9.19倍）；预算匹配的随机和周期性调度无法恢复此精度，从而将增益归因于动作-意外信号。在真实的、训练过的闭环OpenVLA-OFT 7B面板（LIBERO-Long，n=60个episode/臂）上，该门控不会损害成功率：AURA-Mem匹配无门控基线（0.233），并以7.0倍更少的写入次数和恒定内存略优于始终写入的KV臂（0.217）。我们还实例化了近似信息状态（AIS）值损失界[49]，作为方法论演示透明报告：在此规模下，该界是空洞的，并非保证。

## 1 引言

一个在固定硬件上永远运行的机器人面临着一个随步数增长的记忆墙。标准方法——保留每个过去token的Transformer KV缓存——是精确的，但无界：缓存大小随控制步数线性增长，而在带宽受限的边缘加速器上，读取日益增大的缓存最终会成为延迟的约束瓶颈，而非计算。一个数百步的操作episode已使此预算紧张；一个运行数万步的无尽导航或检查任务则使其致命。然而，机器人并不需要重构每一个过去帧。它只需要*足够的状态来选择下一个动作*。每次自回归推理步骤都会触发一次内存写入：策略读取其压缩的世界状态，选择动作，然后在下一次步骤开始前将更新后的状态向量写回高带宽内存。这些写入操作，而非算术运算，才是填满稀缺、高成本内存的真正原因，而这些内存目前正限制着大规模物理AI的部署。三大主要供应商的高带宽内存（HBM）到2026年已全部售罄，美光和SK海力士的未承诺产能为零，同时它们共同承诺投入超过450亿美元的资本支出来扩大产能[63,4]。DRAM合约价格在2026年第一季度环比飙升90-95%，创下单季度纪录；NAND闪存在2026年5月创下连续第17个月的月度价格纪录[54]。在此背景下，SanDisk和SK海力士已正式制定新的*高带宽闪存*（HBF）标准，针对AI推理：采用HBM4兼容封装的512 GB/堆栈、1.6 TB/s读取带宽的NAND堆栈，计划于2026年下半年出样，首款推理设备于2027年初面世[40]。由于闪存受限于有限的编程/擦除周期耐久性，写入最小化算法直接且成比例地延长了写入受限内存的可用寿命。这使得内存写入频率成为一个具有硬件经济后果的架构变量，而不仅仅是性能指标。

这一观察引发了一个不同的问题：与其问“保留多少过去内容”，不如问“为了当前动作接近最优，过去必须提供什么”。信息论上的答案是**动作充分**的压缩状态：保留与良好动作相关的内容，丢弃其余部分。将这一想法转化为可部署的模块需要同时解决三个问题：(i) 记忆*必须*占用*恒定*空间，与episode长度无关；(ii) 必须*谨慎写入*，以使内存带宽成本有界；(iii) 必须*针对动作目标进行训练*，而非通用的重构目标，以便保留的内容反映动作效用而非token级别的保真度。

#### 现有工作中的差距。
循环状态空间模型（SSM），如Mamba[22]和S4[23]，天然实现了O(1)的推理状态内存，但它们在*每一步*都写入其状态，支付了全部带宽成本，并且未使用显式的动作效用瓶颈进行训练。KV缓存压缩和驱逐方法（H2O[66]、Ada-KV[17]、SnapKV[32]、StreamingLLM[58]、VLA-Cache[59]）减少了缓存大小，但本质上仍随episode长度线性增长：它们操作的是*一个增长缓存的一部分*，而非恒定大小的状态，并且无法保证在无限episode下O(1)的VRAM。这两类方法均未提供压缩状态质量与闭环任务性能之间的定量联系。Subramanian等人[49]的近似信息状态（AIS）框架提供了这种联系的结构形式，即一个形如 ‖V* - VπZ‖∞ ≤ 2(ε + γLVδ)/(1-γ) 的值损失界，但此前尚未在有界、稀疏写入、循环的记忆模块中实例化于具身控制场景，也未对这类模块的ε和δ前提进行经验测量；正如我们所展示的，在当前规模下，实例化的界是松散的。

#### 新颖性。
AURA-Mem通过一个四重组合推进了写入带宽前沿，这在此前的所有有界状态和具身记忆工作中均未见：(1) 一个**学习的动作效用写入门控**，其触发信号是策略自身的动作预测误差，而非困惑度梯度、非最近性驱逐、非空间预测；(2) 一个**动作信息瓶颈**（action-IB）训练目标，通过门控决策反向传播闭环动作块损失，直接将写入选择与决策质量对齐；(3) 一个**训练时**的写入率控制（ρ为目标写入率，γ为其惩罚权重），通过训练时选择目标，将模型置于写入带宽/精度前沿的任何位置，经验表征见Fig.13；(4) 一个**测量的(ε,δ)-动作信息状态证书**，实例化了Subramanian等人[49]的界，并在已发布的检查点上进行经验测量（ε平均值=0.0021，εq95=0.0076；加载LV后的界在当前规模下是空洞的，因此有信息量的量是测量的ε）。经验结果是：在4.98-9.19×更少内存写入的情况下，与最佳O(1)基线（fixed_size_state）达到**精度对等**；确立的故事是写入带宽前沿，而非精度优越性。最近似结构兄弟Tensor Cache[52]共享外积快速权重基底，但基于滑动窗口驱逐写入，使用语言建模目标训练，不提供控制率条件化和动作充分性证书；AURA-Mem在剩余四个轴上同时与之不同。

#### 贡献。
我们提出四个诚实且可独立证伪的贡献：

1.  **写入带宽前沿（主要）**。在依赖记忆的合成基准测试中，达到匹配任务成功率时，AURA-Mem比全写入密集基线每秒内存写入次数减少4.98–9.19×，同时保持统计等效精度（配对bootstrap置信区间包含0，N=64，≥3个种子）。预算匹配的朴素写入策略（随机和周期性门控）在相同写入率下无法恢复此精度（在noisy_long_recall任务上，N=64时成功率≈0.366–0.375对比AURA-Mem的1.000）。相同状态大小的学习型token损失门控崩溃（g=0始终），从而将增益归因于**动作意外**信号。内存写入直接转化为内存受限加速器上消耗的DRAM/HBM带宽[21]；因此，写入带宽轴是硬件受限具身部署的正确效率度量。
2.  **O(1)恒定推理状态VRAM（已测量）**。①AURA-Mem的快速权重状态在扫参配置下（dk=dv=32，batch=1，fp32）占用固定的4,224字节，分析计算得出为(dk*dv+dv)×batch×4。在真实L40S GPU上进行的100,000步无限rollout中，该数值在全部500个记录检查点中保持恒定，而匹配的增长KV参考在100,000步时达到25,600,000字节，是前者的6,061×。这是一个结构特性：快速权重张量W∈R^(B×dk×dv)的形状与步数t无关。长期6,061×数字是基于匹配维度KV存根的分析外推；对于我们可以训练双方的场景，下一个贡献提供了一个有能力的训练过的Transformer基线。
3.  **动作充分性界（Subramanian等人[49]的实例化）**。我们实例化了Subramanian等人[49]（JMLR 2022，定理9/27）的近似信息状态值损失界，用于AURA-Mem设置，并在真实发布的检查点上测量其前提。动作预测充分性强（ε平均值=0.0021，95%置信区间[0.0020,0.0023]；εq95=0.0076），但实例化的加载LV的值损失界在当前规模下是**空洞的**（保证形式为52.69；平凡值范围为10.0）。我们将其报告为方法论演示：在Subramanian等人[49]意义上的**动作充分性值损失界**，而非形式保证（参见§4）。
4.  **训练过的KV缓存正面对比与真实VLA面板**。针对一个**训练过的**、位置感知的增长KV Transformer（其键上使用相对年龄位置编码，一个标准组件），在稀疏召回任务上，AURA-Mem在T=128–1024的episode长度上达到**精度对等**（两者≈1.000；n=3个种子，较小），同时保持其推理状态恒定；KV基线通过线性增长其状态来匹配精度（T=1024时字节数多62.1×，T=10,000时多606×，交叉点约在T=17）。我们还在**真实**OpenVLA-OFT 7B策略的闭环LIBERO-Long rollout上运行了AURA-Mem记忆和(ε,δ)AIS测量，在真实的4,096维策略流上演示了该机制（O(1)状态为4,224字节），而非玩具模型。此面板是零样本机制证明，而非最先进的成功率扫描，AURA-Mem是一个记忆/测量层，本身并不提高机器人成功率。

#### 论文组织。
第2节回顾相关工作。第3节描述AURA-Mem架构。第4节提出动作充分性界及其经验实例化。第5节描述实验。第6节呈现结果。第7节讨论局限性。第8节总结。

## 2 相关工作

### 2.1 线性注意力、状态空间模型与快速权重编程器

结构化状态空间模型（S4[23]、S5[47]、Mamba[22]、Mamba-2/SSD[14]）用固定大小的循环替代了二次成本的注意力，实现了O(1)推理状态VRAM；线性注意力变体（RWKV[42]、RetNet[50]、GLA[61]、Based[3]、Performers[12]）通过核近似提供了类似的渐进收益。所有这些架构都在**每一个**时间步向其循环状态写入：Mamba的输入选择性门控调节哪些维度被更新，但从不完全跳过步骤。快速权重编程器[5]及其形式化作为线性Transformer[46]表明，外积激活作为快速重写的联想记忆；现代Hopfield网络[44]在连续状态空间中建立了指数级联想容量。测试时训练（TTT）[51]及其后代（Titans[8]、Atlas[6]、MIRAS[7]、LaCT[65]）通过测试时自监督信号学习快速权重更新规则，从而扩展了这一谱系，将快速权重矩阵视为压缩上下文窗口；Titans特别使用联想记忆（困惑度风格）损失的梯度作为门控信号，并在语言建模目标上进行端到端训练。Gated DeltaNet-2[26]在线性注意力中添加了每步解耦的通道级擦除和写入门控，同样在每一步激活，没有写入稀疏性。AURA-Mem继承了这一家族的有限状态基底，但在上述所有工作均缺失的三个轴上有所突破：写入门控信号是**动作效用意外**（而非步数时钟、困惑度梯度或空间预测）。

AURA: 恒定显存下的机器人策略动作门控记忆

相似文章

RoboMemArena：一个全面且具挑战性的机器人记忆基准测试

ActiveMem：面向长程LLM推理的分布式主动记忆

智能体的记忆尚未成熟

智能体AI记忆不是囤积问题，而是剪枝问题。

PROJECTMEM：面向AI编码代理的本地优先、事件溯源记忆与判断层

提交意见反馈