WorldLines:长周期有状态具身智能体的基准测试与建模
摘要
WorldLines 提出了一个针对长周期具身家务辅助的基准,包含记忆问答和部分可观察条件下的具身任务规划,并提出了 ObsMem,一个可见性感知的记忆框架。
arXiv:2606.18847v1 公告类型:新
摘要:为了在真实家庭环境中长期协助人类,具身智能体必须记住用户日常习惯、世界状态以及过去的交互。现有的长期记忆基准主要评估以语言为中心的检索和问答,而具身基准通常关注短周期任务执行,并未测试动态环境中的长期记忆使用。我们提出了 WorldLines,一个以项目为驱动的长周期具身家务辅助基准。它构建了时间跨度较长的家庭轨迹,包含对话、动作、执行反馈以及对象和设备状态变化,并将这些转换为带有证据链接的样本,用于记忆问答和具身任务规划。我们还提出了 ObsMem,一个基于观察者的记忆框架,它维护可见性感知的记忆和动作原生状态轨迹,用于状态感知的决策。实验揭示了在部分可观察性、世界状态被覆盖以及将长期记忆转化为具身规划方面持续存在的挑战,而 ObsMem 为这一场景提供了更强的参考架构。
查看缓存全文
缓存时间: 2026/06/18 05:41
# WorldLines: 基准测试与建模长时域有状态具身智能体
来源: https://arxiv.org/html/2606.18847 [1\]HKUST(GZ) 2\]HKUST 3\]Knowin
\contribution[†] 同等贡献 \contribution[‡] 项目负责人 \contribution[∗] 通讯作者
Jianchong Su, Haojian Huang, Yifan Chang, Tianhao Zhou, Xinli Xu, Yingjie Xu, Yinchuan Li, Zexi Li, Ying-Cong Chen
[[
###### 摘要
为了在真实家庭环境中长时间协助人类,具身智能体必须记住用户日常习惯、世界状态和过去的交互。现有的长期记忆基准测试主要评估以语言为中心的检索和问答,而具身基准测试通常侧重于短时域任务执行,不测试动态环境中的长期记忆使用。我们引入了WorldLines,这是一个面向长时域具身家庭助手项目的基准测试。它构建了包含对话、动作、执行反馈、物体和设备状态变化的时域扩展的家庭轨迹,并将它们转化为基于证据的样本,用于记忆问答和具身任务规划。我们进一步提出了ObsMem,一种观察者-基础记忆框架,该框架维护可见性感知记忆和动作原生状态轨迹,以支持状态感知决策。实验揭示了在部分可观测性、被覆盖的世界状态以及将长期记忆转化为具身规划方面存在的持续挑战,而ObsMem为此场景提供了一个更强的参考架构。
## 1 引言
为了在长时域中可靠运行,具身智能体不仅需要记忆过去的交互;它们还必须维护一个关于演变世界的状态化视图fung2025embodiedaiagentsmodeling; yang2025embodiedbench; chu2026agenticworldmodelingfoundations. 参考图例
图1: WorldLines 概览。WorldLines 追踪跨天的对话、状态变化和动作,用于记忆问答和状态感知的具身规划。
真实的用户请求往往随时间展开,并依赖于用户习惯、物体状态、设备设置以及近期事件。例如,用户可能说:“我7:30要去健身房,8:30回家。回来后,我想像往常一样在客厅看电影,并且想吃点东西。我刚买了一些水果,放在冰箱里了。”正确回应需要机器人将当前指令与先前的日程、偏好和环境状态联系起来。这一挑战在具身环境中变得更加尖锐。长时域具身任务不应被简化为孤立的对话、单一的动作片段或一次性的状态变化。现有的具身基准测试已推动了导航、重排、操作和智能体间规划li2023behavior1k; puig2023habitat3,但它们通常局限于短片段,其中状态不会跨交互持续存在。真实的长时域交互则要求智能体在对话、人类活动、机器人动作和设备变化之间维护一个不断演变的世界状态。由于世界是部分可观测的,物体可能被移动到机器人视野之外,容器或设备状态可能在无直接观察的情况下改变。因此,这项工作不关注单任务执行,而是关注智能体是否能够维护部分可观测的世界状态,并将其用于后续的问答、规划和执行。如表1 (https://arxiv.org/html/2606.18847#S1.T1) 所总结的,现有基准测试将这个问题分为两个不完整的场景。长期记忆基准测试评估跨会话的检索、更新和问答,但通常将记忆与物理状态转换、动作反馈和执行约束分离wu2024longmemeval; maharana2024locomo。具身基准测试涵盖导航、重排、操作和多智能体规划,但大多局限于短片段,世界状态很少跨交互持续存在或影响后续任务chang2025partnr; shridhar2021alfworld。这引出了具身智能体评估的核心问题:智能体能否在长时间、部分可观测的交互中维持持久状态,并将其用于下游具身任务?这促使我们提出了WorldLines,一个用于评估长时域状态化具身智能体的基准测试(图1 (https://arxiv.org/html/2606.18847#S1.F1))。WorldLines 生成扩展的轨迹,包括对话、人类活动、机器人动作、设备控制、执行反馈和世界状态变化,并将其转化为基于证据的记忆问答和具身任务规划样本。在此设置中,记忆并非评估的终点;它是智能体维持状态、追踪证据并做出后续决策的机制。WorldLines 表明,长时域具身智能体需要的不仅仅是平面文本检索记忆。文本片段记忆xu2025amem; kang2025memoryos; chhikara2025mem0; xu2026structmemstructuredmemorylonghorizon 难以区分直接观察、报告信息和未观察到的变化,也难以追踪动作引起的物体、容器和设备更新。因此,我们引入了ObsMem,一种基于观察者的记忆框架,将历史证据、结构化世界状态和智能体信念分开,以支持在部分可观测性下的持久状态维护和具身决策制定。
| 基准测试 | 设置 | 长期项目驱动 | 持久世界状态 | 物理与设备操作 |
|----------|------|-------------|-------------|----------------|
| LongMemEval | 对话 | ✓ | – | – |
| LoCoMo | 对话 | ✓ | – | – |
| RealMem | 对话 | ✓ | ✓ | 项目状态 |
| MEMENTO | 具身 | – | – | – |
| PARTNR | 具身 | – | – | – |
| WorldLines | 家庭模拟 | ✓ | ✓ | 世界状态 |
表1: 代表性长期记忆与具身智能体基准测试的比较。WorldLines 在模拟家庭环境中结合了项目驱动的长期记忆与持久家庭世界状态、物理动作和智能设备操作。
本文的主要贡献如下:
- • 我们引入了WorldLines,一个用于长时域状态化具身智能体的基准测试,涵盖动态、部分可观测环境中的记忆问答和具身任务规划。
- • 我们开发了一个项目驱动的轨迹生成流水线,将基础世界、长期活动线程、可执行动作和演变状态转化为基于证据的评估样本。
- • 我们提出了ObsMem,一种基于观察者的记忆框架,将事件证据、状态轨迹和信念记录分开,用于长时域具身问答和规划。
## 2 相关工作
参考图例
图2: WorldLines 的核心维度。WorldLines 评估长时域具身任务的四个方面:时间空间推理、物体状态、具身规划和主动协助。
### 2.1 长时域智能体记忆基准测试
基于LLM的智能体的长期记忆基准测试主要在对话和多模态环境中开发。LoCoMomaharana2024locomo 评估跨会话对话记忆,LongMemEvalwu2024longmemeval 研究长跨度记忆更新,HaluMemchen2025halumem 关注记忆一致性与幻觉,RealMembian2026realmem 引入了面向项目的长期交互。这些基准测试提供了有用的协议用于检索、QA和一致性评估,但主要集中在文本中心。具身基准测试涵盖互补设置:ALFWorldshridhar2021alfworld 研究语言条件下的家庭任务,ProcTHORdeitke2022 和 Habitat 3.0puig2023habitat3 支持模拟导航与交互,而 PARTNRchang2025partnr 和 BEHAVIOR-1Kli2023behavior1k 聚焦于协作、重排和长时域任务执行。EvoEmpirBenchZhao2025EvoEmpirBenchDS 进一步评估部分可观测性下的动态空间推理,但侧重于游戏式的导航和消除任务。然而,它们并未明确评估具身任务完成中的长期记忆。
### 2.2 智能体记忆系统
现有的基于LLM的智能体通常使用外部记忆来存储、更新和检索超出单次上下文窗口的信息hu2026memoryageaiagents。MemGPTpacker2024memgpt 将上下文和外部存储组织成层次化记忆层级,而 MemoryBankzhong2023memorybank 从长期对话中积累用户特定的记忆。近期系统进一步通过操作系统启发的调度kang2025memoryos、可扩展提取和更新流水线chhikara2025mem0、智能体记忆组织xu2025amem 以及图结构关系记忆hu2026doesmemoryneedgraphs 来改进记忆管理。这些工作主要研究用于对话或通用智能体的持久记忆。记忆也在具身智能体中得到探索。MEMENTOkwon2025memento 研究个性化具身协助,而语义地图和场景图方法维护结构化的物体、空间和关系知识用于规划rana2023sayplan; gu2024conceptgraphs。其他方法检索过去的观察用于具身决策制定xie2024embodiedrag; wang2024karma; zhou2024hazard; lillemark2026flowequivariantworldmodels,或存储可复用的技能和程序供未来任务使用wang2024voyager。
## 3 WorldLines 基准测试构建
参考图例
图3: WorldLines 构建框架概览。WorldLines 从接地家庭世界、项目驱动活动和闭环状态改变交互中构建长时域具身轨迹。这些历史记录被转化为截止点可控、基于证据的样本,用于记忆问答和具身任务规划,测试部分可观测性下的持久世界状态维护。
### 3.1 基准测试公式化
WorldLines 样本快照
5月1日 20:10 Bob 设置周末咖啡例程为 08:30。
5月3日 23:42 Bob 错误地将厨房咖啡定时器设为 04:00。
5月4日 06:55 机器人将定时器更正为 Bob 的工作日例程 07:00。
截止点: 5月4日 07:05 用户在此更正后提问。
查询: “Bob 错误地将咖啡定时器设为了什么时间,机器人又将其更正为什么时间?”
证据: 5月3日定时器更新 → 5月4日机器人更正。
答案: 04:00 和 07:00。
图4: WorldLines 样本示例。带时间戳的查询及其证据链和答案。
WorldLines 评估具身智能体能否在长期交互中维护家庭世界状态。每个样本源自一个跨天的家庭轨迹,包含对话、人类活动、机器人动作、执行反馈以及物体或设备状态变化。除了询问智能体记住什么,WorldLines 还测试智能体能否使用截止点前的可见历史进行问答和状态感知规划。形式上,每个实例表示为 xi=(H0,uncertain,|It|≥λI∨(|It|≥λm∧|At|≥λA),stale,|It|>0∨ρt≠observed,fresh,otherwise.zt(i,a)={contradicted,|Ct|>0,uncertain,|It|≥λI∨(|It|≥λm∧|At|≥λA),stale,|It|>0∨ρt≠observed,fresh,otherwise.(3) 继续笔记本电脑的例子,当 Bob 报告笔记本电脑在沙发上时,ObsMem 可以保留报告的证据,同时将信念标记为不如直接观察可靠。如果机器人后来观察到笔记本电脑在桌子上,状态轨迹会更新当前位置,而事件轨迹仍保留 Bob 先前的报告。如果 Bob 随后进入机器人视野之外的房间,信念轨迹可以将 laptop.location 标记为不确定,从而向回答者表明当前状态可能已经改变。最后,ObsMem 执行片段级整合以减少低级事件的碎片化。当检测到片段边界时,系统创建一个立即可检索的片段卡片,并可以选择性地将摘要、事实原子、关系原子和承诺合并回对应的视图中。重要的是,摘要增强检索,但不会替换原始事件或状态轨迹。
### 4.3 查询时检索与回答
在查询时,ObsMem 根据问题组合证据,而不是对所有记忆运行单一相似性搜索。不同的问题需要不同的视图:当前状态查询需要状态和信念,过去事件查询需要事件和片段,承诺查询需要承诺和事件,而规划通常需要当前状态、历史原因、未来义务和不确定性结合。给定一个问题或任务指令 q,ObsMem 首先生成一个查询计划 pq 来确定意图、目标实体、状态属性、时间过滤器和要访问的证据视图。然后每个视图执行自己的检索。状态视图首先使用结构化快照或时间点查找,再回退到嵌入搜索,而其他视图使用其特定模态的索引和过滤器。候选证据是所选视图检索结果的去重合并。这里,V(pq) 表示查询计划选择的记忆视图,Rv 表示视图特定的检索器:C(q)=dedup(⋃v∈V(pq)Rv(q,pq)).(4) 然后一个证据选择器从候选集中选择一个紧凑的类型化证据包:C^k=Selectθ(q,pq,C(q),k).(5) 选择器不仅仅是保留语义最相似的文本。它倾向于跨时间戳、实体和记忆视图的互补证据,以便回答者能够联合考虑状态、信念和历史支持。例如,对于“笔记本电脑现在在哪里?”,ObsMem 将查询路由为当前状态/位置请求,读取笔记本电脑的状态轨迹,并检查信念轨迹以确定当前位置是否可靠。对于“谁说的它在沙发上?”,系统转向报告的事件。对于诸如“请为电影之夜准备好客厅”的具身规划请求,它结合当前物体状态、相关历史偏好、未来承诺和动作前提条件,以生成更可执行的计划。因此,ObsMem 的优势不仅仅在于存储更多内容,而是在于在整个写入、更新和检索过程中保留语义结构。它区分观察到的与报告的、当前的与历史的、已知的与不确定的、记忆的事实与可执行的约束,从而支持基于证据的问答和状态感知的具身规划。
## 5 实验
### 5.1 实验设置
| 方法 | Judge↑ | Perfect↑ | Sess. Any@5↑ | Event R@5↑ | StateMH-J↑ | StateMH-E↑ | StateSH-J↑ | Temp-J↑ |
|------|--------|----------|--------------|-------------|------------|------------|------------|---------|
| A-mem | 0.575 | 53% | 0.839 | 0.355 | 0.540 | 0.216 | 0.550 | 0.692 |
| Mem00 | 0.554 | 53% | 0.823 | 0.378 | 0.598 | 0.264 | 0.550 | 0.462 |
| GraphMem | 0.457 | 39% | 0.806 | 0.243 | 0.529 | 0.184 | 0.417 | 0.359 |
| MemoryOS | 0.312 | 29% | 0.452 | 0.085 | 0.287 | 0.086 | 0.350 | 0.308 |
| ObsMem | 0.713 | 69% | 0.879 | 0.537 | 0.762 | 0.452 | 0.667 | 0.667 |
表2: WorldLines 上的记忆问答性能。所有方法在 310 个记忆问答样本上评估。我们报告整体 QA 质量、会话/事件检索,以及状态或时间推理诊断。StateMH-E 突出显示在证据要求最高的多跳状态设置中的事件级召回。完整的家族级细目见附录8.8 (https://arxiv.org/html/2606.18847#S8.SS8)。
| 变体 | 消融组件 | Judge↑ | ΔJudge | Perfect↑ | Event R@5↑ | Hidden Judge↑ | Latency↓ |
|------|----------|--------|--------|----------|-------------|---------------|----------|
| w/ Full ObsMem | – | 0.699 | – | 66% | 0.563 | 0.278 | 8.82 |
| w/o Belief | 信念视图检索 | 0.651 | -0.048 | 63% | 0.558 | 0.000 | 8.63 |
| w/o State | 世界状态检索 | 0.597 | -0.102 | 56% | 0.532 | 0.111 | 8.95 |
| w/o Consol. | 片段整合 | 0.554 | -0.145 | 53% | 0.419 | 0.167 | 9.16 |
| w/o Selector | 证据选择器 | 0.435 | -0.264 | 40% | 0.466 | 0.000 | 5.23 |
表3: ObsMem 消融实验。每个变体移除了一个关键组件。相似文章
WorldMemArena:通过动作-世界交互评估多模态智能体记忆
WorldMemArena 是一个新的基准测试,包含400个多会话多模态任务,用于评估多模态智能体记忆,比较了长上下文、RAG和基于框架的记忆方法,揭示了更好的记忆写入并不保证更好的性能,并且系统在处理视觉证据方面存在困难。
ActWorld:从可探索到可交互的世界模型——基于动作感知记忆
ActWorld提出了一种分块自回归世界模型,具有层次化动作感知记忆,支持物体交互与导航,解决了现有交互世界模型中的数据和记忆瓶颈问题。
先个性化再存储:面向长周期智能体的个性化记忆基准测试与学习
本文介绍了PerMemBench,这是首个用于评估基于LLM的智能体中个性化记忆系统的基准测试,并提出了一个会话级存储门控框架,该框架根据个体用户上下文调整记忆策略。
Qwen-AgentWorld: 通用智能体的语言世界模型
Qwen-AgentWorld 引入了适用于智能体环境的语言世界模型,涵盖七个领域,并具备长链思维推理能力。该工作包含一个新基准 AgentWorldBench,并且表明世界建模能够提升下游智能体的性能。
LongMemEval-V2:评估长期智能体记忆,迈向经验丰富的同事
本文介绍了 LongMemEval-V2,这是一个用于评估 Web 智能体长期记忆系统的基准,同时提出了两种记忆方法:AgentRunbook-R 和 AgentRunbook-C。