Socratic-SWE:基于轨迹派生的智能体技能实现自进化编码智能体
摘要
Socratic-SWE 提出了一种用于软件工程智能体的闭环自进化框架,该框架利用历史求解轨迹生成针对性修复任务,经过三次迭代后在 SWE-bench Verified 上达到 50.40%。
查看缓存全文
缓存时间: 2026/06/08 03:30
论文页面 - Socratic-SWE: 通过迹导代理技能实现自进化编码代理
来源:https://huggingface.co/papers/2606.07412
摘要
Socratic-SWE 利用历史求解迹来生成有针对性的修复任务,通过迭代改进提升代理性能,从而实现自进化的软件工程代理。
LLM 驱动的软件工程代理(https://huggingface.co/papers?q=LLM-driven%20software%20engineering%20agents)已成为现实世界语言模型能力的核心测试平台,但其训练仍受限于高质量 SWE 任务的可用性。现有的合成数据方法(https://huggingface.co/papers?q=synthetic%20data%20methods)通常通过固定突变(https://huggingface.co/papers?q=fixed%20mutation)或漏洞注入过程(https://huggingface.co/papers?q=bug-injection%20procedures)来创建任务,导致生成的任务分布很大程度上独立于代理自身的弱点与训练进度。我们提出 Socratic-SWE,一个闭环自进化框架(https://huggingface.co/papers?q=closed-loop%20self-evolution%20framework),该框架重用代理的历史求解迹(https://huggingface.co/papers?q=historical%20solving%20traces)作为训练信号的来源。Socratic-SWE 并非仅将迹视为奖励计算的证据,而是将其提炼为结构化的代理技能(https://huggingface.co/papers?q=structured%20agent%20skills),这些技能总结了反复出现的失败模式与有效的修复模式(https://huggingface.co/papers?q=repair%20patterns)。随后,这些技能指导在真实仓库中生成有针对性的修复任务。候选任务通过基于执行的验证(https://huggingface.co/papers?q=execution-based%20validation)进行检查,并使用求解器梯度对齐奖励(https://huggingface.co/papers?q=solver-gradient%20alignment%20reward)进行评分,从而保留的任务既可验证又有助于改进求解器。更新后的求解器产生新的迹,使得任务课程(https://huggingface.co/papers?q=task%20curriculum)能够在连续轮次中自适应。在 SWE-bench Verified(https://huggingface.co/papers?q=SWE-bench%20Verified)、SWE-bench Lite(https://huggingface.co/papers?q=SWE-bench%20Lite)、SWE-bench Pro(https://huggingface.co/papers?q=SWE-bench%20Pro)以及 Terminal-Bench 2.0(https://huggingface.co/papers?q=Terminal-Bench%202.0)上,Socratic-SWE 在相同计算预算下相较于自进化基线(https://huggingface.co/papers?q=self-evolving%20baselines)持续提升,经过三轮迭代后在 SWE-bench Verified(https://huggingface.co/papers?q=SWE-bench%20Verified)上达到 50.40%。这些结果表明,求解迹可以作为自进化 SWE 代理的可扩展基础。
查看 arXiv 页面(https://arxiv.org/abs/2606.07412)查看 PDF(https://arxiv.org/pdf/2606.07412)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.07412)
引用此论文的模型 0
尚无模型引用此论文
在模型 README.md 中引用 arxiv.org/abs/2606.07412 以从此页面链接。
引用此论文的数据集 0
尚无数据集引用此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.07412 以从此页面链接。
引用此论文的 Spaces 0
尚无 Space 引用此论文
在 Space README.md 中引用 arxiv.org/abs/2606.07412 以从此页面链接。
包含此论文的收藏集 0
尚无收藏集包含此论文
将此论文添加到收藏集(https://huggingface.co/new-collection)以从此页面链接。
相似文章
SWE-chat:来自真实用户场景中的编码代理交互
SWE-chat 发布了包含 6,000 场真实编码代理会话的数据集,显示仅有 44% 的代理生成代码最终进入提交,并揭示当前 AI 辅助开发中的效率与安全缺陷。
SWE Context Bench 刚刚证明了一件我想很多编码代理用户已经感受到的事情
新的基准论文《SWE Context Bench》测试编码代理能否跨任务复用知识,凸显了现有基准仅评估孤立问题解决的不足。作者讨论了外部记忆等解决方案,并提到了 langmem、mem0、supermemory 和 Greplica 等工具。
@rohanpaul_ai: 精彩新论文来自Meta、CMU及其他实验室。表明编码代理通过制造自己的...来更快地提升。
来自Meta、CMU及其他实验室的一篇新论文提出了Self-play SWE-RL,这是一种方法,编码代理通过在实际代码库中制造和修复错误来训练自己,在SWE-bench基准测试上取得了显著提升,且不依赖人类编写的任务。
与您协同进步:将用户修正编译为编码代理的运行时强制
TRACE 是一个技能层管道,通过从交互式编码代理中挖掘用户修正,编译为运行时检查,在减少重复偏好违反方面显著优于仅靠记忆,这一点在 ClawArena 和 MemoryArena 任务中得到验证。
@sheriyuo: 今年所有关于“自我进化智能体”的论文都在对文本进行突变:提示词、技能文件、工作流图、记忆模式。MO…
MOSS 为自我进化智能体引入了源代码级重写,能够修复文本层进化无法触及的结构性故障。在 OpenClaw 上,它仅通过一个周期就将四项任务的评分均值从 0.25 提升至 0.61,且无需人工干预。