@DanKornas: 当记忆失去来源、修订或引用结构时,长周期研究代理会崩溃。PaperGuru-Benchmark …

X AI KOLs Timeline 工具

摘要

PaperGuru-Benchmark 是一个开源基准测试和工件仓库,用于评估长周期 LLM 代理中生命周期感知的记忆,提供复现提交、调查输出和可重建的图表。

当记忆失去来源、修订或引用结构时,长周期研究代理会崩溃。 PaperGuru-Benchmark 是一个面向 AI/ML 研究者的公共基准测试和工件仓库,用于评估长周期 LLM 代理中生命周期感知的记忆。 它通过提供 PaperBench 复现提交、SurveyBench 调查输出、机器可读评分以及用于重建 README 图表的脚本,帮助你检查 PaperGuru 的基准测试证据。 主要特点: • 生命周期感知记忆框架 – README 定义了四个公理:版本化内容、结构化多跳相关性、有限查询成本和基于来源的组合。 • CCM 架构 – 将块头部与块内容分离,并通过时间工件图进行路由。 • PaperBench 工件 – 包括 23 个复现提交、聚合评分以及每篇论文的比较/报告文件。 • SurveyBench 工件 – 包括 20 份生成的调查,格式为 PDF、Markdown 和 LaTeX。 • 可重建的结果图表 – 在 assets/figures/data.json 中存储原始图表数字,并附有用于重新生成图表的 Python 脚本。 它是开源的(MIT 许可证),并附带适用于提交、调查和论文 PDF 的捆绑工件许可证说明。 链接在回复中。
查看原文
查看缓存全文

缓存时间: 2026/06/17 03:46

当记忆失去来源、修订或引用结构时,长周期研究智能体就会失效。

PaperGuru-Benchmark 是一个面向 AI/ML 研究者的公开基准测试与工件仓库,用于评估长周期 LLM 智能体中的生命周期感知记忆。

它通过提供 PaperBench 复现提交、SurveyBench 调查输出、机器可读的分数以及用于重建 README 图表的脚本,帮助您审查 PaperGuru 的基准测试证据。

主要功能: • 生命周期感知记忆框架 – README 定义了四个公理:版本化内容、结构化多跳相关性、有限查询成本以及基于来源的组合。 • CCM 架构 – 将块头与块内容分离,并通过时间工件图进行路由。 • PaperBench 工件 – 包含 23 个复现提交、汇总分数以及每篇论文的比较/报告文件。 • SurveyBench 工件 – 包含 20 份以 PDF、Markdown 和 LaTeX 格式生成的调查问卷。 • 可重建的结果图表 – 将原始图表数据存储在 assets/figures/data.json 中,并提供 Python 脚本用于重新生成图表。

它采用开源(MIT 许可),并附带针对提交、调查和论文 PDF 的捆绑工件许可证说明。

回复中的链接

相似文章

GateMem:多主体共享记忆代理中的记忆治理基准评测

Hugging Face Daily Papers

GateMem是一个用于评估多主体共享记忆代理中记忆治理的基准,涵盖医疗、办公、教育和家庭领域的效用、访问控制和遗忘。当前方法无法同时平衡这三者,表明可靠的共享机构部署仍然难以实现。

@dair_ai:关于长时程智能体的杰出论文(建议收藏)——类似人类,如何让智能体在困难任务中坚持下去?

X AI KOLs Following

AutoLab 是一个新基准测试,针对 36 个由专家精心设计的长时程任务(系统优化、模型开发、CUDA 内核、谜题),对 17 个前沿模型进行评估。研究发现,决定成功的关键因素是持久性——而非初始尝试的质量。Claude-opus-4.6 在所有类别中名列前茅,而大多数其他模型要么过早终止,要么在几乎没有进展的情况下耗尽了预算。

MemEvoBench:LLM 代理内存误演化基准测试

arXiv cs.CL

MemEvoBench 引入了首个用于评估 LLM 代理内存安全性的基准测试,衡量对抗性内存注入、噪声输出和有偏反馈在问答与工作流任务中导致的行为衰退。该研究表明内存演化是安全失败的重要因素,且静态防御措施不足以应对。