Socratic-SWE：基于轨迹派生的智能体技能实现自进化编码智能体

Hugging Face Daily Papers 2026/06/05 00:00 论文

摘要

Socratic-SWE 提出了一种用于软件工程智能体的闭环自进化框架，该框架利用历史求解轨迹生成针对性修复任务，经过三次迭代后在 SWE-bench Verified 上达到 50.40%。

LLM 驱动的软件工程智能体已成为现实世界语言模型能力的核心测试平台，但其训练仍受限于高质量 SWE 任务的可用性。现有的合成数据方法通常通过固定变异或缺陷注入流程创建任务，使得生成的任务分布很大程度上独立于智能体自身的弱点与训练进度。我们提出 Socratic-SWE，一种闭环自进化框架，它重新利用智能体的历史求解轨迹作为训练信号的来源。Socratic-SWE 并非仅仅将轨迹作为奖励计算的证据，而是将其蒸馏为结构化的智能体技能，总结重复出现的失败模式和有效修复策略。这些技能随后指导在实际仓库中生成针对性的修复任务。候选任务通过基于执行的验证进行检查，并使用求解器梯度对齐奖励进行评分，从而保留的任务既可验证又有助于改进求解器。更新后的求解器生成新的轨迹，使任务课程能够随着迭代轮次自适应调整。在 SWE-bench Verified、SWE-bench Lite、SWE-bench Pro 和 Terminal-Bench 2.0 上，Socratic-SWE 在相同计算预算下持续优于自进化基线，经过三次迭代后在 SWE-bench Verified 上达到 50.40%。这些结果表明，求解轨迹可作为自进化 SWE 智能体的可扩展基础。

查看原文

查看缓存全文

缓存时间: 2026/06/08 03:30

论文页面 - Socratic-SWE: 通过迹导代理技能实现自进化编码代理

来源：https://huggingface.co/papers/2606.07412

摘要

Socratic-SWE 利用历史求解迹来生成有针对性的修复任务，通过迭代改进提升代理性能，从而实现自进化的软件工程代理。

LLM 驱动的软件工程代理（https://huggingface.co/papers?q=LLM-driven%20software%20engineering%20agents）已成为现实世界语言模型能力的核心测试平台，但其训练仍受限于高质量 SWE 任务的可用性。现有的合成数据方法（https://huggingface.co/papers?q=synthetic%20data%20methods）通常通过固定突变（https://huggingface.co/papers?q=fixed%20mutation）或漏洞注入过程（https://huggingface.co/papers?q=bug-injection%20procedures）来创建任务，导致生成的任务分布很大程度上独立于代理自身的弱点与训练进度。我们提出 Socratic-SWE，一个闭环自进化框架（https://huggingface.co/papers?q=closed-loop%20self-evolution%20framework），该框架重用代理的历史求解迹（https://huggingface.co/papers?q=historical%20solving%20traces）作为训练信号的来源。Socratic-SWE 并非仅将迹视为奖励计算的证据，而是将其提炼为结构化的代理技能（https://huggingface.co/papers?q=structured%20agent%20skills），这些技能总结了反复出现的失败模式与有效的修复模式（https://huggingface.co/papers?q=repair%20patterns）。随后，这些技能指导在真实仓库中生成有针对性的修复任务。候选任务通过基于执行的验证（https://huggingface.co/papers?q=execution-based%20validation）进行检查，并使用求解器梯度对齐奖励（https://huggingface.co/papers?q=solver-gradient%20alignment%20reward）进行评分，从而保留的任务既可验证又有助于改进求解器。更新后的求解器产生新的迹，使得任务课程（https://huggingface.co/papers?q=task%20curriculum）能够在连续轮次中自适应。在 SWE-bench Verified（https://huggingface.co/papers?q=SWE-bench%20Verified）、SWE-bench Lite（https://huggingface.co/papers?q=SWE-bench%20Lite）、SWE-bench Pro（https://huggingface.co/papers?q=SWE-bench%20Pro）以及 Terminal-Bench 2.0（https://huggingface.co/papers?q=Terminal-Bench%202.0）上，Socratic-SWE 在相同计算预算下相较于自进化基线（https://huggingface.co/papers?q=self-evolving%20baselines）持续提升，经过三轮迭代后在 SWE-bench Verified（https://huggingface.co/papers?q=SWE-bench%20Verified）上达到 50.40%。这些结果表明，求解迹可以作为自进化 SWE 代理的可扩展基础。

查看 arXiv 页面（https://arxiv.org/abs/2606.07412）查看 PDF（https://arxiv.org/pdf/2606.07412）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.07412）

引用此论文的模型 0

尚无模型引用此论文

在模型 README.md 中引用 arxiv.org/abs/2606.07412 以从此页面链接。

引用此论文的数据集 0

尚无数据集引用此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.07412 以从此页面链接。

引用此论文的 Spaces 0

尚无 Space 引用此论文

在 Space README.md 中引用 arxiv.org/abs/2606.07412 以从此页面链接。

包含此论文的收藏集 0

尚无收藏集包含此论文

将此论文添加到收藏集（https://huggingface.co/new-collection）以从此页面链接。

Socratic-SWE：基于轨迹派生的智能体技能实现自进化编码智能体

论文页面 - Socratic-SWE: 通过迹导代理技能实现自进化编码代理

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的收藏集 0

相似文章

SWE-Together: 在交互式用户会话中评估代码代理

SWE-chat：来自真实用户场景中的编码代理交互

SWE-INTERACT: 将SWE基准重新构想为用户驱动的长期编码会话

SWE-Review：通过智能体代码审查实现问题解决的闭环

Dialogue SWE-Bench：对话驱动编码代理的基准测试

提交意见反馈