@DanKornas: 当记忆失去来源、修订或引用结构时，长周期研究代理会崩溃。PaperGuru-Benchmark …

X AI KOLs Timeline 2026/06/17 01:00 工具

benchmark open-source llm-agents memory evaluation research

摘要

PaperGuru-Benchmark 是一个开源基准测试和工件仓库，用于评估长周期 LLM 代理中生命周期感知的记忆，提供复现提交、调查输出和可重建的图表。

当记忆失去来源、修订或引用结构时，长周期研究代理会崩溃。 PaperGuru-Benchmark 是一个面向 AI/ML 研究者的公共基准测试和工件仓库，用于评估长周期 LLM 代理中生命周期感知的记忆。它通过提供 PaperBench 复现提交、SurveyBench 调查输出、机器可读评分以及用于重建 README 图表的脚本，帮助你检查 PaperGuru 的基准测试证据。主要特点： • 生命周期感知记忆框架 – README 定义了四个公理：版本化内容、结构化多跳相关性、有限查询成本和基于来源的组合。 • CCM 架构 – 将块头部与块内容分离，并通过时间工件图进行路由。 • PaperBench 工件 – 包括 23 个复现提交、聚合评分以及每篇论文的比较/报告文件。 • SurveyBench 工件 – 包括 20 份生成的调查，格式为 PDF、Markdown 和 LaTeX。 • 可重建的结果图表 – 在 assets/figures/data.json 中存储原始图表数字，并附有用于重新生成图表的 Python 脚本。它是开源的（MIT 许可证），并附带适用于提交、调查和论文 PDF 的捆绑工件许可证说明。链接在回复中。

查看原文

查看缓存全文

缓存时间: 2026/06/17 03:46

当记忆失去来源、修订或引用结构时，长周期研究智能体就会失效。

PaperGuru-Benchmark 是一个面向 AI/ML 研究者的公开基准测试与工件仓库，用于评估长周期 LLM 智能体中的生命周期感知记忆。

它通过提供 PaperBench 复现提交、SurveyBench 调查输出、机器可读的分数以及用于重建 README 图表的脚本，帮助您审查 PaperGuru 的基准测试证据。

主要功能： • 生命周期感知记忆框架 – README 定义了四个公理：版本化内容、结构化多跳相关性、有限查询成本以及基于来源的组合。 • CCM 架构 – 将块头与块内容分离，并通过时间工件图进行路由。 • PaperBench 工件 – 包含 23 个复现提交、汇总分数以及每篇论文的比较/报告文件。 • SurveyBench 工件 – 包含 20 份以 PDF、Markdown 和 LaTeX 格式生成的调查问卷。 • 可重建的结果图表 – 将原始图表数据存储在 assets/figures/data.json 中，并提供 Python 脚本用于重新生成图表。

它采用开源（MIT 许可），并附带针对提交、调查和论文 PDF 的捆绑工件许可证说明。

回复中的链接

@DanKornas: 当记忆失去来源、修订或引用结构时，长周期研究代理会崩溃。PaperGuru-Benchmark …

相似文章

GateMem：多主体共享记忆代理中的记忆治理基准评测

@dair_ai：关于长时程智能体的杰出论文（建议收藏）——类似人类，如何让智能体在困难任务中坚持下去？

先个性化再存储：面向长周期智能体的个性化记忆基准测试与学习

@tom_doerr: 关于短期、长期和经验性智能体记忆的精选论文 https://github.com/TsinghuaC3I/Awesome-Memory-for-Age…

MemEvoBench：LLM 代理内存误演化基准测试

提交意见反馈