我为编码智能体的“记忆”构建了一个基准测试，期待他人来挑战它

Reddit r/artificial 2026/05/08 22:05 工具

benchmark coding-agents memory rag open-source evaluation

摘要

开发者创建了一个名为 continuity-benchmarks 的新基准测试，用于测试 AI 编码智能体在活跃开发过程中保持与项目规则一致性的能力，解决了现有记忆基准测试的空白——这些测试侧重于语义回忆而非实时架构一致性和多会话行为。

大多数 AI 记忆基准测试都关注语义回忆。但编码智能体的失败方式并非如此。它们不是简单地“遗忘”，而是在代码中破坏自己之前做出的决策。所以我为此构建了一个基准测试。它检查智能体是否真的能在工作过程中与项目规则保持一致，而不仅仅是事后检查。它考察的方面包括：* 编辑是否真正遵守了之前的架构决策 * 行为在多个会话中是否保持一致（即使在你加入干扰时也是如此）* 检索是否在*正确的时刻*触发——而不仅仅是“它在记忆中的某个地方” 代码仓库（完整测试框架 + 数据集 + 评分）：[https://github.com/Alienfader/continuity-benchmarks](https://github.com/Alienfader/continuity-benchmarks) 与基线 + 常规 RAG 风格记忆设置的早期对比数据：* 行为对齐提升约 3 倍* 多会话一致性显著增强* 检索*时机*比检索本身是否存在重要得多我不是说这就是智能体记忆的终极定论。但它揭示了大多数基准测试甚至没有关注的一种失败模式。所以这是挑战：如果你在构建智能体记忆系统、代码 RAG、长上下文编码智能体、持久状态/记忆层，请用这个基准测试来运行它。公布你的结果、你的设置、你的对比。我真的很想看看 LangChain、LlamaIndex 和自定义 RAG 堆栈在高度变更的工作流程中表现如何。我们需要的是真正可以比较的记忆系统，而不仅仅是听起来不错的理论方案。 https://preview.redd.it/dkm2ulxsyzzg1.png?width=2624&format=png&auto=webp&s=67f0299395708818aa3d7346ddae2ad0c5c4a6ba

查看原文

我为编码智能体的“记忆”构建了一个基准测试，期待他人来挑战它

相似文章

ProgramBench（5分钟阅读）

rohitg00/agentmemory

我总在会话之间丢失智能体记忆，所以我构建了一个记忆中介：它隔离每个智能体的记忆并在重启后保留

AI 智能体记忆机制详解（28 分钟阅读）

MemEvoBench：LLM 代理内存误演化基准测试

提交意见反馈