内存管理的长上下文注意力：可编辑请求本地内存的初步研究

arXiv cs.CL 2026/06/30 04:00 论文

摘要

本文研究了内存管理的长上下文注意力，这是一个将高效状态压缩与显式可编辑内存槽分开的研究方向。实验表明，结合快速循环/稀疏主干网络与显式内存管理的混合方法，在合成任务和长上下文基准测试中均优于纯固定状态或纯稀疏方法。

arXiv:2606.28876v1 Announce Type: new 摘要：长上下文语言模型通常混淆两个不同目标：将历史压缩为高效状态，以及维护可靠的长期记忆。线性、循环和稀疏注意力降低了处理长序列的成本，但它们本身并未指定何时应写入、覆盖、保护或丢弃事实。我们研究内存管理的长上下文注意力，这是一种将快速循环或稀疏主干网络与显式可编辑的请求本地内存槽及查询时稀疏回退分开的研究路线。在结构化合成任务、令牌/块/序列桥、生成的自然语言以及本地冻结模型诊断中，纯固定状态或纯稀疏方法在某些覆盖、版本、抗污染或无写入信号情况下失败，而混合方法则覆盖了两种路线。一个小的 2,097,152 令牌机制压力测试在 2-132 个活跃块下达到 50/50 的汇总准确率。一个 2.74M 参数的最小因果事件令牌模型在轻量级写入监督下达到 595/600，支持可训练性的证明而非规模。一个六族冻结隐藏状态桥在受控指针准确率上达到 1079/1080，但它使用了生成器提供的整数键 ID 和单独编码的标准键字符串；这是一个神谕元数据探针，而非开放文本实体解析。本地非排行榜的 RULER 4K 诊断仍接近全上下文，而一个 33 条记录的 LongBench v1 16K 子集表明，朴素的词汇选择并非通用。证据区分了三个主张：受控槽生命周期可行，当写入缺乏未来查询信号时需要稀疏回退，以及学习到的开放域选择仍是主要的架构瓶颈。我们不声称最终生成式架构、全局槽轨迹收敛或系统优越性。

查看原文

查看缓存全文

缓存时间: 2026/06/30 05:28

# 可编辑请求本地内存的初步研究
来源：https://arxiv.org/html/2606.28876
## 内存管理的长上下文注意力：可编辑请求本地内存的初步研究

（2026年6月27日）

###### 摘要

长上下文语言模型常常混淆两个不同的目标：将历史压缩成高效状态，以及维护可靠的长时记忆。线性注意力、循环注意力和稀疏注意力降低了处理长序列的成本，但它们本身并没有规定一个事实何时应该被写入、覆盖、防止干扰或丢弃。我们研究*内存管理的长上下文注意力*，这一研究路线将快速循环或稀疏主干与显式的可编辑请求本地内存槽及查询时的稀疏回退机制分开。

在结构化合成任务、词元/块/序列桥梁、生成的自然语言以及本地冻结模型诊断中，纯固定状态或纯稀疏方法在某些覆盖、版本、抗污染或无写入信号案例中失败，而混合方法则覆盖了两种路径。一个小的2,097,152词元机制压力测试在2–132个活跃块上达到了50/50的汇总准确率。一个2.74M参数的最小因果事件-词元模型，在轻量写入监督下达到了595/600，支持了可训练性（而非规模）的证明。一个六族冻结隐藏状态桥梁在受控指针准确率上达到了1079/1080，但它使用了生成器提供的整数键ID和单独编码的规范键字符串；这是一个预言元数据探针，而非开放文本实体解析。本地非排行榜式RULER 4K诊断接近全上下文表现，而一个33条记录的LongBench v1 16K子集表明，朴素的词法选择并不通用。这些证据区分了三个主张：受控槽生命周期是可行的，当写入缺乏未来查询信号时需要稀疏回退，学习开放域选择仍然是主要的架构瓶颈。我们不声称最终的生成功架、全局槽轨迹收敛或系统优越性。

## 1 引言

高效的长上下文建模通过线性注意力、状态空间与循环混合体以及稀疏注意力取得了快速进展[17 (https://arxiv.org/html/2606.28876#bib.bib15),26 (https://arxiv.org/html/2606.28876#bib.bib18),13 (https://arxiv.org/html/2606.28876#bib.bib19),31 (https://arxiv.org/html/2606.28876#bib.bib6),33 (https://arxiv.org/html/2606.28876#bib.bib17),32 (https://arxiv.org/html/2606.28876#bib.bib23),10 (https://arxiv.org/html/2606.28876#bib.bib26)]。这些方法要么减少了每个词元的状态大小，要么减少了参与计算的位置数量，从而支持比密集的softmax注意力更长的窗口。然而，压缩状态并不等同于管理良好的内存。一个将信息累积到固定矩阵或向量中的模型仍然需要决定哪些事件值得持久化，如何处理与旧事实冲突的新事实，如何保护稳定事实免受干扰污染，以及如何在有界解码路径中暴露内存状态。

我们研究以下假设：

> 状态压缩和内存管理是独立的设计问题。长上下文模型需要一个显式的内存写入、覆盖、冲突处理和驱逐的生命周期，而不仅仅是一个更便宜的注意力状态。

所提出的方向——内存管理的长上下文注意力——保留了线性、循环和稀疏注意力的效率动机，但增加了一个小的可编辑内存表。一个快速状态处理局部和高吞吐量的序列处理。稳定的槽存储选定的事件，并带有元数据，如置信度、版本、使用情况和冲突分数。当模型在预填充期间没有因果信号知道哪个普通事实稍后会被查询时，使用稀疏的查询时检索作为回退。预期的结果不是全注意力的通用替代品，而是针对超长上下文的帕累托候选者，其中小活跃解码集仍然必须支持持久且可编辑的事实。

这份草稿有意保守。我们不声称最终的最先进模型、官方基准排行榜结果或生产级内核。相反，我们报告一个已在本地实现的阶段性证据链，并用它来定义下一个架构证明。

初步贡献如下：

- • 我们将长上下文内存表述为一个显式的生命周期问题：写、读、覆盖、版本、保护和驱逐。
- • 我们实现了一系列内存管理的原型，从向量任务到词元、块和序列主干，以及自然语言桥梁。
- • 我们与固定状态、滑动窗口、查询稀疏和MSA风格稀疏代理进行了比较，包括一个2M词元的复制实验。
- • 我们添加了一个冻结发布模型的诊断工具，用于RULER和LongBench，显示了稀疏/混合上下文选择有效的地方以及失败的地方。
- • 我们训练了一个小的内部内存管理主干，然后跨六个模型族和三个适配器种子复现了一个冻结隐藏状态内存适配器。
- • 我们识别了剩余的差距：预言元数据辅助的规范键和指针路由必须被基于学习的开放文本接地、槽匹配和生成式内存注入所取代。

#### 证据逻辑。

本研究区分为三个通常被混淆的组成部分。首先，一个预言辅助的受控键协议定义了接地接口，并隔离了隐藏表示是否能支持内存生命周期；这是一个实验工具，而非已解决的解析器。第二，可编辑槽机制测试了写、覆盖、保护和驱逐行为。第三，一个故意简单的词法选择器在真实基准记录上测试了查询时回退。它在RULER上的相对成功和在LongBench上的失败，识别出哪些选择器约束仍然未被满足。因此，我们在下面指定目标解析器/选择器的属性，而不是将当前组件呈现为完整的开放域算法。

## 2 方法概述

### 2.1 快速状态与稳定内存

让一个主干维护一个快速状态 用于局部序列处理，如线性注意力或循环混合体。同时，一个请求本地稳定内存包含  个槽，  其中  、  是槽键和值，  是置信度，  是使用情况，  是时间或版本元数据，  存储辅助冲突或源特征。在当前公式中，内存是请求本地的；我们不假设跨用户持久内存。

在读取时，模型计算一个稀疏活跃集，并返回仅在  个槽上的加权值。这保留了一个可解释的活跃解码集。

### 2.2 写入、覆盖与驱逐

对于每个候选事件 ，一个写入控制器估计它是否应进入稳定内存：

其中  可能包括事件类型、显著性、近因性和冲突特征。一个候选者要么更新一个匹配的槽，要么占据一个被驱逐的槽。一个简化的覆盖更新为：
，其中  衡量冲突或版本证据。对于同键事实，内存管理器倾向于较新的高置信度写入，而不是平均不兼容的值。驱逐使用置信度、使用情况、近因性和重要性，以便干扰严重的尾部不会冲走早期持久的事实。

#### 条件分段稳定性。

我们不需要在非平稳流下全局收敛：一个新事实应导致离散状态变化。考虑一个稳定的实体-版本段，具有固定槽分配，无驱逐或错误写入，且 ，在这个段中如果  且 ，那么 。对于条件无偏的带界方差噪声观测，附加条件  给出了相应的随机逼近目标。一个明确的新版本事件可以重置或覆盖该槽并开始一个新的稳定段。这些是有条件的设计目标，而非学习系统的全局收敛定理：状态依赖匹配、阈值化写入和驱逐形成了一个切换过程。特别地，一个仅仅有界但持续的错误写入率可能会偏差极限或诱导振荡，除非其累积更新质量消失或抵消。

### 2.3 稀疏回退

一个有界因果内存在预填充期间无法知道哪个完全普通的事实将来会被查询。因此，我们将显式槽与查询时对块摘要的稀疏检索结合起来。稀疏路径恢复了均匀回忆案例；显式内存路径处理覆盖和版本生命周期。这种混合至关重要：纯内存在无信号的均匀回忆情况下失败，而纯稀疏检索在任务需要覆盖语义时常常检索到过时版本。图1 (https://arxiv.org/html/2606.28876#S2.F1) 区分了已实现的路由路径与计划的生成集成。

### 2.4 预言元数据辅助的规范键协议

阶段13是一个受控表示桥梁，而非学习或开放域解析器。每个生成的样本提供事件句子、一个查询句子、整数  、整数  、目标事件索引以及可选的写入标签。冻结主干对每个完整事件和查询句子的最后层隐藏状态进行均值池化。另外，该协议从每个生成器提供的键ID构造规范字符串 ，用相同的冻结主干编码，并对完整规范字符串进行均值池化。事件和查询表示将其全句子向量与这些规范键向量拼接。

不使用运行时正则表达式、命名实体识别器、精确字符串跨度匹配器、源句子键跨度池化或值跨度提取器。查询键通过目标事件索引从生成器元数据中选择。同键替换和内存与稀疏分支仲裁使用精确整数键相等性。事件类型由受控句子模板表达；版本由流顺序和重复键ID表示；轻量写入变体额外接收写入标签。适配器预测一个事件指针而非生成值。因此，阶段13隔离了当键身份被提供时，冻结隐藏表示是否能支持内存生命周期；它没有建立实体发现、别名解析、共指、歧义或嵌套实体处理，以及学习槽匹配。

预期的未来接地组件具有契约

其中 表示一个源跨度， 是其规范化实体或事件键。项 、 和 代表携带值的证据、一个事件/版本/冲突标签和置信度。当前协议将  替换为生成器元数据。一个学习实现必须从开放文本中恢复此结构并校准不确定性，而非假设精确ID。

### 2.5 目标选择器与生命周期属性

给定接地候选者，缺失的学习选择器可以表述为：

其中  是活跃内存集，  包含匹配和冲突分数，  是一个校准的弃权/回退决策。结合写入器和生命周期管理器，目标系统应提供：

1. 1\.*键一致性*：同一实体或事件的同义表述映射到兼容键；
2. 2\.*版本单调性*：识别出的较新版本应取代而非平均不兼容的旧值；
3. 3\.*干扰稳定性*：无关添加不应破坏或驱逐受保护的相关槽；
4. 4\.*有界激活*：  不随上下文长度线性增长；
5. 5\.*冲突可分离性*：同键矛盾应与不同键语义相似性区分开；
6. 6\.*校准弃权*：不确定匹配应回退到稀疏检索，而非强制内存读取；
7. 7\.*分段稳定性*：无相关新证据时，分配和槽内容变得安静，而显式新版本可能导致有界跳跃，随后进入新的稳定段。

这些是期望属性和评估标准；当前预言辅助桥梁并未证明它们。

上下文 词元/事件 流 → 骨干表示与快速状态 → 写入控制器（显著性/冲突/预算） → 可编辑内存槽 → 稀疏块/键索引（查询时回退） → 查询表示 → 分支路由器（匹配键读） → 选定内存/值状态（小活跃集）→ 当前证据：指针/路由输出 → 下一步架构步骤：LM生成条件 → 匹配键读与回退候选

图1：内存管理的序列路径。实线路径总结了在受控原型中实现的机制：快速骨干、有预算的可编辑槽、稀疏回退以及内存优先的分支仲裁。虚线生成条件路径是下一步提议的工作，不属于报告的指针实验部分。

## 3 实验路线

实验按阶段性有效性检查组织。早期阶段询问该机制是否可测量。后续阶段询问行为是否能经受词元化、分块、序列骨干、生成的自然文本、本地基准工具、官方数据摄取以及冻结发布模型的推理。

#### 任务。

受控套件包括关联回忆、覆盖事实、时间版本、干扰污染和流式问答。后来的自然语言和基准风格套件包括带标签的针、均匀针、多针冲突、变量跟踪和多跳路由任务。

#### 基线。

我们与全扫描或全上下文（在可行时）、尾部/滑动窗口、FIFO内存、纯线性或Delta/GDN/KDA风格的固定状态代理[31,14,28]、受NSA和DeepSeek Sparse Attention启发的局部查询稀疏代理[32,10]、MSA风格的文档/块稀疏代理[6]、纯显式内存以及内存+稀疏混合变体进行比较。这些代理名称仅表示机制族；它们不是忠实的实现或供应商内核。

#### 已发布模型。

冻结诊断工具使用本地 Llama 和 Qwen instruct 权重[12 (https://arxiv

内存管理的长上下文注意力：可编辑请求本地内存的初步研究

相似文章

面向高效长上下文生成的Context Memorization

动态线性注意力

Dynamic Linear Attention

更少的上下文，更高的准确性：一种用于LLM代理的双时态记忆引擎，其中精简检索的上下文胜过了完整历史

内存

提交意见反馈