空间记忆必须存储什么：遮挡作为语言代理记忆的测试

arXiv cs.AI 2026/06/10 04:00 论文

spatial-memory language-agents occlusion geometry recall-experiment voxel-world digital-differential-analyzer

摘要

本文研究空间几何是否提升语言代理记忆回忆能力，证明几何必须主导回忆而非近因或重要性，并指出在3D体素世界中，射线追踪可见性谓词对于遮挡处理至关重要。

arXiv:2606.10299v1 公告类型：新摘要：语言代理“记忆宫殿”系统将每条记忆锚定到世界坐标，直觉是几何增加了文本无法提供的内容。我们将这种直觉变得可测试，并报告三个结果。第一，记忆宫殿默认将空间邻近性折叠进线性混合，与近因和重要性并列，这没有帮助甚至可能有害：在预注册的回忆实验中，出货混合在其自身冻结测试中失败（平均Delta-Hit@5 -0.0375，Wilcoxon p=0.306），处于位置盲基线水平，而几何主导权重则决定性地获胜（+0.3208，p<10^-15）：当查询模式为空间时，几何必须主导回忆。第二，记忆回忆和可见性必须分离：回忆在设计上是遮挡盲的（你正确记得墙后下一个房间），而可见性是对存储几何的感知谓词，实时系统从未计算过它。一行代码的射线对体素数字差分分析器（DDA），从代理已投射的视线射线重新指向，提供了这一点：文本和实时视场锥在849个墙后目标上得分均为0.000，而锥加DDA达到0.982（精确McNemar p<10^-6）；坐标回忆分别解析出余弦零假设无法解决的近似重复位置（1.000 vs 0.533，n=150）。第三，可见性谓词在git提交的预注册（SPMEM-OCC-LIVE-v1：八个脚本世界，自动裁判评分，96个墙后目标，假可见从1.000降至0.000，合并精确McNemar p=2.5x10^-29）下得到实时确认，该运行发现并修复了一个实际的中继锚点缺陷。我们承认“遮挡需要几何”近乎同义反复；贡献在于测量和隔离，将空间记忆必须存储的内容与其读取方式分开。这些预实验为一项冻结确认研究（SPMEM-ZERO-REAL-PREREG-v1）提供动力；完整的人工编写多世界研究（含盲评者）仍为未来工作。

查看原文

查看缓存全文

缓存时间: 2026/06/10 06:14

# 遮蔽：语言智能体记忆的试金石 来源：https://arxiv.org/html/2606.10299 ## 空间记忆必须存储什么：以遮蔽作为语言智能体记忆的测试（2026年6月） ###### 摘要 语言智能体的“记忆宫殿”系统将每条记忆锚定到一个世界坐标，其直觉在于几何信息能提供纯文本无法做到的东西。我们将这种直觉变得可测试，并报告三个结果。第一，记忆宫殿默认将空间邻近性与新颖性和重要性进行线性混合的做法并无帮助，甚至可能有害：在一个预注册的回忆实验中，原有的混合在自身的冻结测试中失败（平均Δ\\DeltaHit@5 −0.0375\-0.0375，Wilcoxon p=0.306p=0.306，置信区间包含0），其表现与无视位置的基线持平；而几何主导的加权则显著胜出（+0.3208\+0.3208，p<10−15p<10^\{-15\}）：当查询机制是空间性的时，几何必须*主导*回忆。我们展示了空间主导的排序形式；更强的索引/门控形式仍有待未来工作。第二，记忆的*回忆（recall）*与*可见性（visibility）*必须分离：回忆设计上对遮蔽是“盲”的（你正确记得墙后的下一个房间），而可见性是对已存储几何的一个感知谓词，但实时系统从未计算过它。将智能体已投出的视线射线重新定向至体素所使用的一行射线-体素数字微分分析器（DDA），即可提供此谓词：纯文本和实时视野锥（FoV cone）在849849个墙后目标上的得分均为0.0000.000，而锥加DDA则达到0.9820.982（精确McNemar检验 p<10−6p<10^\{-6\}）；坐标回忆能单独解决近似重复位置的问题，而余弦零模型无法区分（1.0001.000对比0.5330.533，n=150n\{=\}150）。第三，该可见性谓词在git提交的预注册条件下被实时确认（SPMEM-OCC-LIVE-v1：八个存在一个抖动遮挡物族类别的脚本化世界，自动评分，9696个墙后目标，假可见从1.000→0.0001.000\{\to\}0.000，合并精确McNemar检验 p=2.5×10−29p\{=\}2.5\{\times\}10^\{-29\}）；该次运行发现并修复了一个真实的中继锚点缺陷。我们承认“遮蔽需要几何”近乎同义反复；本文的贡献在于测量与隔离，区分了空间记忆必须*存储*什么与如何读取它。一个初步的动作层面消融实验（反映对象绑定的效果，而非几何本身）将情境化动作准确率从0.6250.625提升至1.0001.000（p=0.0039p=0.0039）。这些初步实验支撑起一个冻结的确认性研究（SPMEM-ZERO-REAL-PREREG-v1）；完整的人类编写多世界研究（含盲审员）仍留作未来工作。 ## 1 引言 一个不断壮大的语言智能体系统家族为每个智能体赋予其观察、行动和言谈的持久记忆，并能从该记忆中检索以规划下一步行动[1 (https://arxiv.org/html/2606.10299#bib.bib1),2 (https://arxiv.org/html/2606.10299#bib.bib2)]。一个独特的子类，受位置记忆法和具身3D场景记忆[6 (https://arxiv.org/html/2606.10299#bib.bib6),7 (https://arxiv.org/html/2606.10299#bib.bib7)]启发，将每条记忆锚定到一个*世界坐标*：智能体不仅存储*发生了什么*，还存储*在何处*，之后通过位置和可见性检索记忆。其吸引力在于位置成为一种免费的检索线索。我们构建了这样一个系统：一个共享的体素世界，外部语言模型“大脑”通过无渲染的工具接口行动，并将每条记忆锚定到一个3D单元格（图1 (https://arxiv.org/html/2606.10299#S1.F1)），然后我们提出该吸引力所要求的问题：几何信息到底提供了哪些文本尚未提供的东西？参考图注图1：记忆系统所处的零世界（Zero world）：一个外部脑智能体社会在一个共享的3D体素空间（图中显示了一个智能体建造的村庄，从实时网络客户端捕获）中行动并构建持久结构。智能体记忆被主体锚定在这个世界的位置上。本文探讨这些记忆必须读取哪些几何信息才能完成文本无法完成的工作。
我们并非第一个利用存储几何恢复被遮蔽内容的。渲染即回忆（render-as-recall）系统，如GSMem[8 (https://arxiv.org/html/2606.10299#bib.bib8)]（从无遮挡视角渲染的3D高斯泼溅记忆）和RenderMem[9 (https://arxiv.org/html/2606.10299#bib.bib9)]（从查询隐含视角渲染以推理可见性与遮蔽），早于我们展示了这一洞见，我们不声称优先。我们的贡献在于渲染的上游：我们隔离了“必须存储什么”与“如何读取它”，表明一旦几何信息被存储，一行射线步进算法和一个将坐标作为文本读取的LLM就能以相同效果恢复遮蔽（E3）；因此不可减少的需求是几何存储，而非渲染器；并且我们在一个运行中的文本智能体系统上预注册条件下实时确认了感知不对称性，而不仅仅是在模拟中。我们的框架遵循具身记忆文献。3D-Mem[6 (https://arxiv.org/html/2606.10299#bib.bib6)]和3DSPMR[7 (https://arxiv.org/html/2606.10299#bib.bib7)]将空间记忆视为以视觉方式捕捉地点，记住对象位置、遮蔽和视角，并通过位置和可见性进行回忆，将视场覆盖和可见性用作门控和验证信号，而非作为排序轴。从这个角度看，对空间记忆的测试非常尖锐：如果一个非空间的文本或向量索引能够回答该查询，那它就不是空间记忆的测试。
几何必须完成文本无法完成的工作，而遮蔽是最清晰的情况。一个无视几何的索引无法仅从描述中推导出“在后面”：遮蔽需要坐标、遮挡物和视线计算（即使将坐标交给文本推理器，它也能恢复，参见第7节 (https://arxiv.org/html/2606.10299#S7)）。这有助于区分文献中可能模糊的两种不同操作。记忆*回忆（recall）*按*位置*检索：锚定到一个坐标，它能正确找到存储在该位置或其附近的内容，包括墙后的下一个房间，因此回忆设计上是*对遮蔽盲*的。*可见性（visibility）*是另一回事：一个感知验证（“这个目标从我站的位置是否可见？”），是一个可查询的几何谓词，回忆结果可以被要求回答。因此，遮蔽是记忆必须能够*回答*的问题，而非压抑墙后记忆的抑制器。我们的测试衡量的是那个感知谓词；回忆本身则持续返回墙后的记忆。这种重新框架也纠正了我们自己早期的工作。之前的一个程序将文档语料库组织成主题“建筑”，并通过将查询路由到正确的建筑进行回忆，报告了“空间”方面的胜利。一次审计发现它研究的是主题划分的文本检索：真实标签就是被测试划分的细化，检索从未读取3D坐标，且三个头条胜利中有两个无法通过族系纠正。我们在第4节 (https://arxiv.org/html/2606.10299#S4)中诚实地将其呈现为一个范围性否定结果，然后在这个Zero系统为我们清晰提供的唯一不对称性上构建真正的测试：在实时感知路径中任何地方都不存在可见性查询，然而视线回答正是无视几何的文本索引无法计算的几何信息。
#### 贡献。
1. 1.定义与测试。空间记忆必须存储其谓词（可见性、遮蔽、包含、视角）所需的几何信息；空间记忆主张的测试在于查询是否需要内容索引无法计算的几何信息。我们为每种查询类型给出一个最小表示模式（存储什么、计算什么）（表1 (https://arxiv.org/html/2606.10299#S3.T1)）。
2. 2.感知证据。坐标回忆解决了文本零模型无法解决的近似重复定位问题（1.0001.000对比0.5330.533）；仅靠视场的*感知*无法区分可见目标与墙后目标；一个射线-体素DDA视线谓词在受控体素模拟中回答了它（0.9820.982），并在实时中继（relay）上通过git提交的预注册得到确认（SPMEM-OCC-LIVE-v1：八个世界，9696个墙后目标，余弦零模型和视场锥的假可见率为0.0000.000对比1.0001.000，合并精确McNemar检验 p=2.5×10−29p\{=\}2.5\{\times\}10^\{-29\}）；该运行首先发现并修复了一个中继错误，该错误曾使谓词走向错误锚点。
3. 3.检索机制证据。一个预注册的回忆实验表明，原先的稀释线性混合在其自身的冻结测试中失败（与无视位置的基线持平或更差），而几何主导（空间主导）加权则显著获胜，使得索引与排序器之间的区别变得量化。
4. 4.边界证据。主题划分检索和对象绑定动作增益是有用的，但*并非*几何特有的；一组鲁棒性检查（E1–E5）将主张缩小到几何不可减少的情况。
我们明确说明，是3DSPMR[7 (https://arxiv.org/html/2606.10299#bib.bib7)]，而非本文，首次将视场/可见性几何用作空间智能体记忆中的先验；我们不声称对该想法有优先权。本文的新颖之处在于经过测量的排序器与谓词的区别、存储而非介质隔离（E3），以及实时的预注册遮蔽确认（SPMEM-OCC-LIVE-v1）；这些是3DSPMR或渲染即回忆系统[8 (https://arxiv.org/html/2606.10299#bib.bib8),9 (https://arxiv.org/html/2606.10299#bib.bib9)]都没有进行的。我们不提出头对头、超越SOTA的声明：我们没有在共享任务上用我们的系统与渲染即回忆（GSMem[8 (https://arxiv.org/html/2606.10299#bib.bib8)]、RenderMem[9 (https://arxiv.org/html/2606.10299#bib.bib9)]）或FoV先验（3DSPMR[7 (https://arxiv.org/html/2606.10299#bib.bib7)]）系统进行对比。我们的贡献是隔离与测量，区分空间记忆必须存储什么与如何读取它，以及一个预注册的实时确认，而非排行榜胜利。与这些邻近系统在共享遮蔽查询集上的头对头程序是未来工作的核心部分（第9节 (https://arxiv.org/html/2606.10299#S9)）。完整的人类编写多世界确认性研究已预注册（SPMEM-ZERO-REAL-PREREG-v1）；其遮蔽部分现在已在其自身冻结条件下运行（SPMEM-OCC-LIVE-v1，第6.9节 (https://arxiv.org/html/2606.10299#S6.SS9)）；这里的初步实验为其余部分提供了动力并降低了风险。
## 2 相关工作
#### 智能体记忆。
生成式智能体（Generative Agents）[1 (https://arxiv.org/html/2606.10299#bib.bib1)]通过新颖性、重要性和相关性的加权和来评分记忆；这仍然是规范文本记忆基线。MemGPT[2 (https://arxiv.org/html/2606.10299#bib.bib2)]（现称Letta）将上下文窗口视为操作系统内存层次结构，在工作上下文和归档存储（通过向量搜索检索）之间分页。最近一波研究将记忆结构化为一图：A-MEM[3 (https://arxiv.org/html/2606.10299#bib.bib3)]构建一个演化的卡片盒式链接笔记；Mem0[4 (https://arxiv.org/html/2606.10299#bib.bib4)]提取并巩固事实（带可选的图变体）；Zep/Graphiti[5 (https://arxiv.org/html/2606.10299#bib.bib5)]维护一个时间知识图。这些方法功能强大，但它们引入了一个必须由语言模型*提取*的图，伴随着成本和漂移。空间锚点是一种无需提取的结构先验，不同类型；本文的问题在于它哪一部分在做真正的工作。
#### 空间与具身记忆。
3D-Mem[6 (https://arxiv.org/html/2606.10299#bib.bib6)]用多视图“记忆快照”表示已探索场景，用于具身推理。“视觉到几何”（3DSPMR）[7 (https://arxiv.org/html/2606.10299#bib.bib7)]使用视场覆盖作为显式几何先验，用于记忆门控、验证是否已看到足够的信息再回答，以及作为探索激励；其消融实验表明这些FoV机制（而非排序信号）驱动了增益。我们明确承认这一先例：3DSPMR是最近的前期工作，FoV几何先验在这里不是新的。它所没有做的两件事定义了我们的增量。它没有在实证上将作为验证谓词的几何与作为混合排序项一部分的几何分开——正是我们的预注册回忆实验测量的区别（第6.8节 (https://arxiv.org/html/2606.10299#S6.SS8)），其中混合稀释到低于无视位置基线，而几何主导加权获胜；验证谓词本身通过遮蔽初步实验单独测量。它也没有将对遮蔽盲的回忆与由几何回答的独立可见性查询解耦——我们的实时测试隔离了这一点。我们的区别在于经过测量的排序器与谓词的区别以及回忆/感知的分割，而非可见性几何本身的使用。
这些作品是我们效仿的严格标准：真实标签来自世界的几何，价值通过下游任务增量与几何开/关消融来衡量，准确率指标与效率指标配对。它们激发了我们核心主张：几何是一种索引和验证机制，遮蔽和可见性是不可减少的情况。
大规模的智能体社会系统，如PIANO/Project Sid[10 (https://arxiv.org/html/2606.10299#bib.bib10)]，是诚实的零基线：通过非空间文本记忆实现丰富行为。
#### 渲染即回忆。
GSMem[8 (https://arxiv.org/html/2606.10299#bib.bib8)]存储已探索环境的3D高斯泼溅表示，并通过从无遮挡视角渲染新视图来恢复被遮蔽内容。RenderMem[9 (https://arxiv.org/html/2606.10299#bib.bib9)]从查询隐含视角渲染，以显式推理可见性和遮蔽。两者都在本文之前表明，存储几何能够实现遮蔽恢复；我们不声称对该洞见有优先权。我们的方法有三个不同之处。第一，我们的几何是权威的体素占用（相当于oracle），而非可能带有表面误差的3DGS重建。第二，E3表明文本坐标在遮蔽恢复上能与射线步进持平（0.99对比0.985，McNemar检验 p=1.0p=1.0），因此存储而非渲染器是不可减少的需求；GSMem和RenderMem都没有分开这两者。第三，我们在git提交的预注册条件下，在运行中的文本智能体系统上实时确认了遮蔽不对称性，而不仅仅是在模拟中。
#### 世界模型与缺失的记忆层。
上述无视几何的记忆系统（Generative Agents、MemGPT、A-MEM、Mem0、Zep）是这一差距的具体证据：每个都已部署或经过同行评审，却没有一个存储空间几何或计算可见性谓词，因此没有一个能回答“这个记住的东西从这里是否可见”。这种缺失就是缺失层。并行的一个程序构建*世界模型*：全模态系统，渲染、模拟和规划物理或虚拟场景（例如NVIDIA Cosmos[16 (https://arxiv.org/html/2606.10299#bib.bib16)]）。该程序的功能分类[17 (https://arxiv.org/html/2606.10299#bib.bib17)]有用地将它框架为同一智能体-动作-状态-观察循环的三种投影：*渲染器*输出观察（像素），*模拟器*输出忠实状态（几何、物理），*规划器*输出动作。我们将该分类引用为框架而非证据：承重的实事是同行评审记忆栈中被测量的几何盲性（第6.5节 (https://arxiv.org/html/2606.10299#S6.SS5)）。所有三种世界模型投影都涉及*瞬时*循环：世界看起来怎样，它会如何演化，下一步该做什么。没有一种指定长时间跨度智能体必须*在整个循环中保留*什么：哪些地方、

空间记忆必须存储什么：遮挡作为语言代理记忆的测试

相似文章

SpatialAct: 探索VLM智能体在3D场景中的空间推理到行动的能力

通过语言与符号表示之间的模态切换进行空间推理

记忆深度,而非记忆访问:面向长时间运行语言代理的选择性参数整合

学会记住什么：面向长时域语言代理的基于约束优化的可观测性安全记忆保留

用于视频世界模型的潜在空间记忆

提交意见反馈