SWE Context Bench 刚刚证明了一件我想很多编码代理用户已经感受到的事情
摘要
新的基准论文《SWE Context Bench》测试编码代理能否跨任务复用知识,凸显了现有基准仅评估孤立问题解决的不足。作者讨论了外部记忆等解决方案,并提到了 langmem、mem0、supermemory 和 Greplica 等工具。
我刚读了一篇新的基准论文《SWE Context Bench:编码中上下文学习的基准》(arXiv 2602.08316,2026年5月)。核心发现一旦说出来就十分明显:当前像 SWE-bench 这样的基准只测试代理能否孤立地解决问题,并不测试代理能否在相关任务中复用所学内容,从而更快速、更廉价地工作。想知道:1. 你认为这个问题将如何解决——外部记忆?框架内解决方案?模型会自行改进?2. 你目前如何尝试解决代理的“失忆”问题?3. langmem / mem0 / supermemory 等方案如果有帮助,是如何支持的?我正在开发 Greplica——一个面向编码代理的轻量级图记忆层。想法很简单:从工程会话中捕获断言、组件、流程和代码锚点,让代理跨会话查询该图,而非每次从头开始。
相似文章
我为编码智能体的“记忆”构建了一个基准测试,期待他人来挑战它
开发者创建了一个名为 continuity-benchmarks 的新基准测试,用于测试 AI 编码智能体在活跃开发过程中保持与项目规则一致性的能力,解决了现有记忆基准测试的空白——这些测试侧重于语义回忆而非实时架构一致性和多会话行为。
@rohanpaul_ai: Meta 论文显示,当编程代理重复使用过去尝试的简短摘要而不是原始日志时,其性能会显著提升……
一篇 Meta 论文显示,编程代理在重复使用过去尝试的简短摘要而非原始日志时性能显著提升,使用 Claude 4.5 Opus 在 SWE-Bench 和 Terminal-Bench 上取得了显著改进。
超越检索:代码搜索的多任务基准与模型
本文介绍了 CoREB,这是一个针对代码搜索的、受数据污染限制的多任务基准测试,具备微调重排序能力,可评估文本到代码、代码到文本以及代码到代码的检索效果。
AA 推出 Coding Agent Index —— 模型与 Harness 组合的性能对比
Artificial Analysis 推出了 Coding Agent Index,这是一套新的基准测试套件,结合了 SWE-Bench-Pro-Hard-AA、Terminal-Bench v2 和 SWE-Atlas-QnA,旨在评估 AI 编程代理在多样化任务中的表现。
SMMBench:面向源分布的多模态智能体记忆基准测试
提出SMMBench,一个用于评估多模态智能体从独立来源(如对话、表格和文档)中检索、对齐和组合分散证据能力的基准。实验表明,当前系统在此类源分布记忆组合任务上仍存在困难。