@DanKornas: 当记忆失去来源、修订或引用结构时,长周期研究代理会崩溃。PaperGuru-Benchmark …
摘要
PaperGuru-Benchmark 是一个开源基准测试和工件仓库,用于评估长周期 LLM 代理中生命周期感知的记忆,提供复现提交、调查输出和可重建的图表。
查看缓存全文
缓存时间: 2026/06/17 03:46
当记忆失去来源、修订或引用结构时,长周期研究智能体就会失效。
PaperGuru-Benchmark 是一个面向 AI/ML 研究者的公开基准测试与工件仓库,用于评估长周期 LLM 智能体中的生命周期感知记忆。
它通过提供 PaperBench 复现提交、SurveyBench 调查输出、机器可读的分数以及用于重建 README 图表的脚本,帮助您审查 PaperGuru 的基准测试证据。
主要功能: • 生命周期感知记忆框架 – README 定义了四个公理:版本化内容、结构化多跳相关性、有限查询成本以及基于来源的组合。 • CCM 架构 – 将块头与块内容分离,并通过时间工件图进行路由。 • PaperBench 工件 – 包含 23 个复现提交、汇总分数以及每篇论文的比较/报告文件。 • SurveyBench 工件 – 包含 20 份以 PDF、Markdown 和 LaTeX 格式生成的调查问卷。 • 可重建的结果图表 – 将原始图表数据存储在 assets/figures/data.json 中,并提供 Python 脚本用于重新生成图表。
它采用开源(MIT 许可),并附带针对提交、调查和论文 PDF 的捆绑工件许可证说明。
回复中的链接
相似文章
GateMem:多主体共享记忆代理中的记忆治理基准评测
GateMem是一个用于评估多主体共享记忆代理中记忆治理的基准,涵盖医疗、办公、教育和家庭领域的效用、访问控制和遗忘。当前方法无法同时平衡这三者,表明可靠的共享机构部署仍然难以实现。
@dair_ai:关于长时程智能体的杰出论文(建议收藏)——类似人类,如何让智能体在困难任务中坚持下去?
AutoLab 是一个新基准测试,针对 36 个由专家精心设计的长时程任务(系统优化、模型开发、CUDA 内核、谜题),对 17 个前沿模型进行评估。研究发现,决定成功的关键因素是持久性——而非初始尝试的质量。Claude-opus-4.6 在所有类别中名列前茅,而大多数其他模型要么过早终止,要么在几乎没有进展的情况下耗尽了预算。
先个性化再存储:面向长周期智能体的个性化记忆基准测试与学习
本文介绍了PerMemBench,这是首个用于评估基于LLM的智能体中个性化记忆系统的基准测试,并提出了一个会话级存储门控框架,该框架根据个体用户上下文调整记忆策略。
@tom_doerr: 关于短期、长期和经验性智能体记忆的精选论文 https://github.com/TsinghuaC3I/Awesome-Memory-for-Age…
一个关于智能体记忆的精选论文库,按短期、长期和经验性记忆组织,包含分类法及LLM智能体的应用场景。
MemEvoBench:LLM 代理内存误演化基准测试
MemEvoBench 引入了首个用于评估 LLM 代理内存安全性的基准测试,衡量对抗性内存注入、噪声输出和有偏反馈在问答与工作流任务中导致的行为衰退。该研究表明内存演化是安全失败的重要因素,且静态防御措施不足以应对。