GateMem:多主体共享记忆代理中的记忆治理基准评测

Hugging Face Daily Papers 论文

摘要

GateMem是一个用于评估多主体共享记忆代理中记忆治理的基准,涵盖医疗、办公、教育和家庭领域的效用、访问控制和遗忘。当前方法无法同时平衡这三者,表明可靠的共享机构部署仍然难以实现。

针对大语言模型代理的记忆基准大多假设单用户场景,导致医院、工作场所、校园和家庭等环境下的共享助手研究不足。在这些部署中,多个主体向共享记忆池写入数据,并根据不同角色、范围和关系进行查询,因此记忆质量不仅需要召回,还需要治理。我们提出了GateMem,一个用于多主体共享记忆代理的基准。GateMem联合评估了以下几方面:在合法长期请求中结合状态更新的效用、跨上下文授权边界的访问控制,以及在用户明确删除请求后面向代理的主动遗忘。它涵盖了医疗、办公、教育和家庭领域,包含长篇多轮交互情节、增量记忆注入、隐藏检查点、结构化评判和泄露目标标注。在多种基线方法和骨干模型上,没有一种方法能同时实现强大的效用、稳健的访问控制和可靠的遗忘。长上下文提示通常能以高token成本获得最佳治理分数,而基于检索的方法和外部记忆方法虽然降低了成本,但仍会泄露未授权或被删除的信息。这些结果表明,当前的记忆代理远未达到可靠的共享机构部署水平。
查看原文
查看缓存全文

缓存时间: 2026/06/22 05:29

论文页面 - GateMem:多主体共享记忆智能体中的记忆治理基准测试

来源:https://huggingface.co/papers/2606.18829

摘要

当前记忆智能体在多个授权主体与多样化授权上下文中,由于难以兼顾效用、访问控制与遗忘,缺乏可靠的共享机构部署能力。

针对LLM智能体的记忆基准测试 (https://huggingface.co/papers?q=Memory%20benchmarks) 主要假设单用户场景,导致医院、工作场所、校园和家庭中的共享助手研究不足。在这些部署中,多个主体向同一个记忆池写入数据,并基于不同角色、范围与关系进行查询,因此记忆质量既需要回忆能力,也需要治理机制。我们提出GateMem,一个面向多主体共享记忆智能体 (https://huggingface.co/papers?q=multi-principal%20shared-memory%20agents) 的基准测试。GateMem 联合评估以下能力:对合法长程请求(伴有状态更新)的效用;跨上下文授权边界的访问控制 (https://huggingface.co/papers?q=access%20control);以及在收到显式删除请求后的面向智能体主动遗忘 (https://huggingface.co/papers?q=active%20forgetting)。它涵盖医疗、办公、教育和家庭领域,包含长程多方会话、增量记忆注入、隐藏检查点、结构化评判以及泄露目标标注。在不同基线与骨干模型上,没有任何方法能同时实现强效用、鲁棒访问控制 (https://huggingface.co/papers?q=access%20control) 和可靠的遗忘。长上下文提示 (https://huggingface.co/papers?q=Long-context%20prompting) 通常能以高昂token成本获得最佳治理分数,而基于检索和外部记忆的方法 (https://huggingface.co/papers?q=external-memory%20methods) 降低了成本,但仍会泄露未授权或已删除的信息。这些结果表明,当前记忆智能体距离可靠的共享机构部署还有很长距离。

查看 arXiv 页面 (https://arxiv.org/abs/2606.18829) 查看 PDF (https://arxiv.org/pdf/2606.18829) 项目页面 (https://rzhub.github.io/GateMem/project.html) GitHub63 (https://github.com/rzhub/GateMem) 添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.18829)

引用本论文的模型 0

暂无模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.18829 以从本页面建立链接。

引用本论文的数据集 1

Ray368/GateMem 更新于约1小时前 • 2 • 1 (https://huggingface.co/datasets/Ray368/GateMem)

引用本论文的Spaces 1

包含本论文的收藏集 0

暂无收藏集包含此论文

请将本论文添加至收藏集 (https://huggingface.co/new-collection) 以从本页面建立链接。

相似文章

多智能体LLM系统的受控共享内存

arXiv cs.AI

本文介绍了MemClaw,一种用于多智能体LLM系统的受控共享内存架构,形式化了诸如未授权泄漏和过时传播等故障模式,并通过ArgusFleet测试框架评估了该系统。

MemGym:面向LLM智能体的长时记忆环境

arXiv cs.CL

MemGym是一个基准测试,用于评估LLM智能体在长时任务中的记忆形成,它统一了现有的智能体gym和合成流水线,并采用记忆隔离得分。它涵盖工具使用对话、多轮搜索、编码和计算机使用,并包含一个轻量级奖励模型(MemRM)以实现高效评估。

MemEvoBench:LLM 代理内存误演化基准测试

arXiv cs.CL

MemEvoBench 引入了首个用于评估 LLM 代理内存安全性的基准测试,衡量对抗性内存注入、噪声输出和有偏反馈在问答与工作流任务中导致的行为衰退。该研究表明内存演化是安全失败的重要因素,且静态防御措施不足以应对。