SWE Context Bench 刚刚证明了一件我想很多编码代理用户已经感受到的事情

Reddit r/AI_Agents 2026/06/05 11:09 论文

摘要

新的基准论文《SWE Context Bench》测试编码代理能否跨任务复用知识，凸显了现有基准仅评估孤立问题解决的不足。作者讨论了外部记忆等解决方案，并提到了 langmem、mem0、supermemory 和 Greplica 等工具。

我刚读了一篇新的基准论文《SWE Context Bench：编码中上下文学习的基准》（arXiv 2602.08316，2026年5月）。核心发现一旦说出来就十分明显：当前像 SWE-bench 这样的基准只测试代理能否孤立地解决问题，并不测试代理能否在相关任务中复用所学内容，从而更快速、更廉价地工作。想知道：1. 你认为这个问题将如何解决——外部记忆？框架内解决方案？模型会自行改进？2. 你目前如何尝试解决代理的“失忆”问题？3. langmem / mem0 / supermemory 等方案如果有帮助，是如何支持的？我正在开发 Greplica——一个面向编码代理的轻量级图记忆层。想法很简单：从工程会话中捕获断言、组件、流程和代码锚点，让代理跨会话查询该图，而非每次从头开始。

查看原文

SWE Context Bench 刚刚证明了一件我想很多编码代理用户已经感受到的事情

相似文章

SWE-Explore：编码代理仓库探索能力基准测试

SWE-INTERACT: 将SWE基准重新构想为用户驱动的长期编码会话

@NielsRogge: http://paperswithco.de上的热门论文是"FastContext: Training Efficient Repository Explorer for Coding Agents"…

我为编码智能体的“记忆”构建了一个基准测试，期待他人来挑战它

@rohanpaul_ai: Meta 论文显示，当编程代理重复使用过去尝试的简短摘要而不是原始日志时，其性能会显著提升……

提交意见反馈