我为编码智能体的“记忆”构建了一个基准测试,期待他人来挑战它
摘要
开发者创建了一个名为 continuity-benchmarks 的新基准测试,用于测试 AI 编码智能体在活跃开发过程中保持与项目规则一致性的能力,解决了现有记忆基准测试的空白——这些测试侧重于语义回忆而非实时架构一致性和多会话行为。
大多数 AI 记忆基准测试都关注语义回忆。但编码智能体的失败方式并非如此。它们不是简单地“遗忘”,而是在代码中破坏自己之前做出的决策。所以我为此构建了一个基准测试。它检查智能体是否真的能在工作过程中与项目规则保持一致,而不仅仅是事后检查。它考察的方面包括:* 编辑是否真正遵守了之前的架构决策 * 行为在多个会话中是否保持一致(即使在你加入干扰时也是如此)* 检索是否在*正确的时刻*触发——而不仅仅是“它在记忆中的某个地方”
代码仓库(完整测试框架 + 数据集 + 评分):[https://github.com/Alienfader/continuity-benchmarks](https://github.com/Alienfader/continuity-benchmarks)
与基线 + 常规 RAG 风格记忆设置的早期对比数据:* 行为对齐提升约 3 倍* 多会话一致性显著增强* 检索*时机*比检索本身是否存在重要得多
我不是说这就是智能体记忆的终极定论。但它揭示了大多数基准测试甚至没有关注的一种失败模式。
所以这是挑战:
如果你在构建智能体记忆系统、代码 RAG、长上下文编码智能体、持久状态/记忆层,请用这个基准测试来运行它。公布你的结果、你的设置、你的对比。我真的很想看看 LangChain、LlamaIndex 和自定义 RAG 堆栈在高度变更的工作流程中表现如何。我们需要的是真正可以比较的记忆系统,而不仅仅是听起来不错的理论方案。
https://preview.redd.it/dkm2ulxsyzzg1.png?width=2624&format=png&auto=webp&s=67f0299395708818aa3d7346ddae2ad0c5c4a6ba
相似文章
ProgramBench(5分钟阅读)
ProgramBench 是一项全新的基准测试,用于评估 AI 智能体在无法获取源代码或反编译工具的情况下,仅凭编译后的二进制文件和文档重建完整软件项目的能力。
rohitg00/agentmemory
agentmemory 是一个开源的持久化记忆层,专为 AI 编程智能体(Claude Code、Cursor、Gemini CLI、Codex CLI 等)设计。它通过知识图谱、置信度评分和混合搜索技术,借助 MCP、Hooks 或 REST API,为智能体提供跨会话的长期记忆能力。该项目基于 iii 引擎构建,无需外部数据库,提供 51 个 MCP 工具。
我总在会话之间丢失智能体记忆,所以我构建了一个记忆中介:它隔离每个智能体的记忆并在重启后保留
作者构建了 HeurChain,这是一款记忆中介,为AI智能体提供特定于智能体的持久化记忆存储,能够在重启后保留记忆,并支持结构化和语义检索。
AI 智能体记忆机制详解(28 分钟阅读)
本文全面介绍了 AI 智能体记忆机制的技术原理,区分了工作记忆与长期记忆的实现方式,并探讨了上下文管理、基于嵌入的检索以及数据生命周期治理等关键策略。
MemEvoBench:LLM 代理内存误演化基准测试
MemEvoBench 引入了首个用于评估 LLM 代理内存安全性的基准测试,衡量对抗性内存注入、噪声输出和有偏反馈在问答与工作流任务中导致的行为衰退。该研究表明内存演化是安全失败的重要因素,且静态防御措施不足以应对。