GateMem:多主体共享记忆代理中的记忆治理基准评测
摘要
GateMem是一个用于评估多主体共享记忆代理中记忆治理的基准,涵盖医疗、办公、教育和家庭领域的效用、访问控制和遗忘。当前方法无法同时平衡这三者,表明可靠的共享机构部署仍然难以实现。
查看缓存全文
缓存时间: 2026/06/22 05:29
论文页面 - GateMem:多主体共享记忆智能体中的记忆治理基准测试
来源:https://huggingface.co/papers/2606.18829
摘要
当前记忆智能体在多个授权主体与多样化授权上下文中,由于难以兼顾效用、访问控制与遗忘,缺乏可靠的共享机构部署能力。
针对LLM智能体的记忆基准测试 (https://huggingface.co/papers?q=Memory%20benchmarks) 主要假设单用户场景,导致医院、工作场所、校园和家庭中的共享助手研究不足。在这些部署中,多个主体向同一个记忆池写入数据,并基于不同角色、范围与关系进行查询,因此记忆质量既需要回忆能力,也需要治理机制。我们提出GateMem,一个面向多主体共享记忆智能体 (https://huggingface.co/papers?q=multi-principal%20shared-memory%20agents) 的基准测试。GateMem 联合评估以下能力:对合法长程请求(伴有状态更新)的效用;跨上下文授权边界的访问控制 (https://huggingface.co/papers?q=access%20control);以及在收到显式删除请求后的面向智能体主动遗忘 (https://huggingface.co/papers?q=active%20forgetting)。它涵盖医疗、办公、教育和家庭领域,包含长程多方会话、增量记忆注入、隐藏检查点、结构化评判以及泄露目标标注。在不同基线与骨干模型上,没有任何方法能同时实现强效用、鲁棒访问控制 (https://huggingface.co/papers?q=access%20control) 和可靠的遗忘。长上下文提示 (https://huggingface.co/papers?q=Long-context%20prompting) 通常能以高昂token成本获得最佳治理分数,而基于检索和外部记忆的方法 (https://huggingface.co/papers?q=external-memory%20methods) 降低了成本,但仍会泄露未授权或已删除的信息。这些结果表明,当前记忆智能体距离可靠的共享机构部署还有很长距离。
查看 arXiv 页面 (https://arxiv.org/abs/2606.18829) 查看 PDF (https://arxiv.org/pdf/2606.18829) 项目页面 (https://rzhub.github.io/GateMem/project.html) GitHub63 (https://github.com/rzhub/GateMem) 添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.18829)
引用本论文的模型 0
暂无模型关联此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.18829 以从本页面建立链接。
引用本论文的数据集 1
Ray368/GateMem 更新于约1小时前 • 2 • 1 (https://huggingface.co/datasets/Ray368/GateMem)
引用本论文的Spaces 1
包含本论文的收藏集 0
暂无收藏集包含此论文
请将本论文添加至收藏集 (https://huggingface.co/new-collection) 以从本页面建立链接。
相似文章
GroupMemBench:多轮对话中LLM代理记忆的基准测试
GroupMemBench是一个新的基准,用于评估多轮对话中LLM代理的记忆能力,揭示了当前记忆系统的缺陷,最佳系统仅达到46%的平均准确率。
先个性化再存储:面向长周期智能体的个性化记忆基准测试与学习
本文介绍了PerMemBench,这是首个用于评估基于LLM的智能体中个性化记忆系统的基准测试,并提出了一个会话级存储门控框架,该框架根据个体用户上下文调整记忆策略。
多智能体LLM系统的受控共享内存
本文介绍了MemClaw,一种用于多智能体LLM系统的受控共享内存架构,形式化了诸如未授权泄漏和过时传播等故障模式,并通过ArgusFleet测试框架评估了该系统。
MemGym:面向LLM智能体的长时记忆环境
MemGym是一个基准测试,用于评估LLM智能体在长时任务中的记忆形成,它统一了现有的智能体gym和合成流水线,并采用记忆隔离得分。它涵盖工具使用对话、多轮搜索、编码和计算机使用,并包含一个轻量级奖励模型(MemRM)以实现高效评估。
MemEvoBench:LLM 代理内存误演化基准测试
MemEvoBench 引入了首个用于评估 LLM 代理内存安全性的基准测试,衡量对抗性内存注入、噪声输出和有偏反馈在问答与工作流任务中导致的行为衰退。该研究表明内存演化是安全失败的重要因素,且静态防御措施不足以应对。