SWE Context Bench 刚刚证明了一件我想很多编码代理用户已经感受到的事情

Reddit r/AI_Agents 论文

摘要

新的基准论文《SWE Context Bench》测试编码代理能否跨任务复用知识,凸显了现有基准仅评估孤立问题解决的不足。作者讨论了外部记忆等解决方案,并提到了 langmem、mem0、supermemory 和 Greplica 等工具。

我刚读了一篇新的基准论文《SWE Context Bench:编码中上下文学习的基准》(arXiv 2602.08316,2026年5月)。核心发现一旦说出来就十分明显:当前像 SWE-bench 这样的基准只测试代理能否孤立地解决问题,并不测试代理能否在相关任务中复用所学内容,从而更快速、更廉价地工作。想知道:1. 你认为这个问题将如何解决——外部记忆?框架内解决方案?模型会自行改进?2. 你目前如何尝试解决代理的“失忆”问题?3. langmem / mem0 / supermemory 等方案如果有帮助,是如何支持的?我正在开发 Greplica——一个面向编码代理的轻量级图记忆层。想法很简单:从工程会话中捕获断言、组件、流程和代码锚点,让代理跨会话查询该图,而非每次从头开始。
查看原文

相似文章

超越检索:代码搜索的多任务基准与模型

Hugging Face Daily Papers

本文介绍了 CoREB,这是一个针对代码搜索的、受数据污染限制的多任务基准测试,具备微调重排序能力,可评估文本到代码、代码到文本以及代码到代码的检索效果。