StreamMemBench:面向未来辅助的代理记忆流式评估

arXiv cs.AI 论文

摘要

StreamMemBench是一个新的流式基准测试,用于评估个人代理记忆系统如何利用观察到的证据和用户反馈来实现面向未来的辅助。实验表明,当前系统通常无法将存储的信息转化为可靠的后续行为。

arXiv:2606.14571v1 公告类型:新\n摘要:个人代理记忆的一个核心作用是将存储的信息和之前的交互转化为面向未来的辅助。在日常使用中,有用的线索来自于代理观察到什么以及用户如何与代理交互,代理必须将这些线索从当前请求带到类似的未来任务中。现有的记忆基准测试通常孤立地测试对话回忆或任务改进,使得从流式观察到后续辅助的轨迹在很大程度上未经过测试。我们引入了StreamMemBench,这是一个流式基准测试,围绕来自EgoLife自我中心流的每个证据锚构建一个两步任务序列。初始任务测试证据的使用,而后续任务测试反馈和交互体验是否被重用。四个指标诊断证据回忆、初始证据使用、反馈整合和后续重用。在两个主干上的八个记忆系统的实验表明,即使证据被存储或反馈被本地整合,当前系统通常也无法使用观察到的证据或将反馈转化为可靠的后续行为。StreamMemBench可在https://github.com/landian60/StreamMemBench公开获取。
查看原文
查看缓存全文

缓存时间: 2026/06/15 09:12

# StreamMemBench:面向未来辅助的智能体记忆流式评估
来源:https://arxiv.org/abs/2606.14571
查看 PDF (https://arxiv.org/pdf/2606.14571)

> 摘要:个人智能体记忆的核心作用是将存储的信息和先前的交互转化为面向未来的辅助。在日常使用中,有用的线索来自智能体观察到的事物以及用户与智能体交互的方式,智能体必须将这些线索从当前请求延续到类似的未来任务。现有的记忆基准测试通常单独测试对话回忆或任务改进,使得从流式观察到后续辅助的轨迹大多未经测试。我们引入了 StreamMemBench,这是一个流式基准测试,围绕 EgoLife 自我中心流中的每个证据锚点构建一个两步任务序列。初始任务测试证据使用,后续任务测试反馈和交互体验是否被重用。四个指标分别诊断证据回忆、初始证据使用、反馈整合和后续重用。基于两个骨干网络对八个记忆系统进行的实验表明,当前系统通常无法使用观察到的证据或将反馈转化为可靠的后续行为,即使证据已存储或反馈已在局部整合。StreamMemBench 可在此公开获取:this https URL (https://github.com/landian60/StreamMemBench)

## 提交历史

来自:Guanming Liu [查看邮件 (https://arxiv.org/show-email/b3c20731/2606.14571)] **[v1]** 2026年6月12日星期五 15:48:43 UTC (773 KB)

相似文章

MemEvoBench:LLM 代理内存误演化基准测试

arXiv cs.CL

MemEvoBench 引入了首个用于评估 LLM 代理内存安全性的基准测试,衡量对抗性内存注入、噪声输出和有偏反馈在问答与工作流任务中导致的行为衰退。该研究表明内存演化是安全失败的重要因素,且静态防御措施不足以应对。