SWE-Together: 在交互式用户会话中评估代码代理
摘要
SWE-Together 是一个基于真实用户-代理交互创建的多轮代码基准测试,采用反应式LLM模拟器,根据最终正确性和交互效率评估代理。
查看缓存全文
缓存时间: 2026/06/30 19:37
论文页面 - SWE-Together:评估交互式用户会话中的编码代理
来源:https://huggingface.co/papers/2606.29957 作者:
,
,
,
,
,
,
,
,
,
摘要
SWE-Together 是一个基于真实用户-代理交互构建的多轮编码基准,它采用反应式 LLM 模拟器来根据最终正确性和交互效率两个维度评估代理。
大多数编码代理基准 (https://huggingface.co/papers?q=coding-agent%20benchmarks) 是静态的:代理在开始时接收到完整的任务描述,最终仅根据其代码进行评判。而真实的编码辅助是交互式的,用户会澄清目标、添加约束并在多个回合中纠正错误。我们引入了 SWE-Together,这是一个从真实用户-代理编码会话 (https://huggingface.co/papers?q=user-agent%20coding%20sessions) 重建的多轮基准 (https://huggingface.co/papers?q=multi-turn%20benchmark)。为使真实交互可验证,我们从 11,260 条已记录的会话中精选了 109 个仓库级任务 (https://huggingface.co/papers?q=repository-level%20tasks),选择了那些具有可恢复仓库状态、清晰用户目标以及可观察结果的会话。为了在不同代理上重放这些交互,我们构建了一个基于 LLM 的反应式用户模拟器 (https://huggingface.co/papers?q=user%20simulator),该模拟器保留了原始用户的意图,并在编码代理的进展需要时提供反馈。为了将代理作为协作者进行评估,我们同时衡量最终仓库正确性 (https://huggingface.co/papers?q=final%20repository%20correctness) 以及交互过程中所需的纠正性反馈回合数 (https://huggingface.co/papers?q=corrective%20feedback%20turns)。对前沿编码代理的实验表明,更强的代理通常能达到更高的最终成功率,同时需要更少的干预,这意味着用户体验得到了改善。
查看 arXiv 页面 (https://arxiv.org/abs/2606.29957)
查看 PDF (https://arxiv.org/pdf/2606.29957)
项目页面 (https://togetherbench.com/)
GitHub2 (https://github.com/Togetherbench/SWE-Together)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.29957)
在您的代理中获取此论文:
hf papers read 2606.29957
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 (0)
没有模型链接到此论文
在模型 README.md 中引用 arxiv.org/abs/2606.29957 以将其链接到此页面。
引用该论文的数据集 (0)
没有数据集链接到此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.29957 以将其链接到此页面。
引用该论文的 Spaces (0)
没有 Space 链接到此论文
在 Space README.md 中引用 arxiv.org/abs/2606.29957 以将其链接到此页面。
包含该论文的收藏集 (0)
没有收藏集包含此论文
将此论文添加到收藏集 (https://huggingface.co/new-collection) 以将其链接到此页面。
相似文章
SWE-chat:来自真实用户场景中的编码代理交互
SWE-chat 发布了包含 6,000 场真实编码代理会话的数据集,显示仅有 44% 的代理生成代码最终进入提交,并揭示当前 AI 辅助开发中的效率与安全缺陷。
Socratic-SWE:基于轨迹派生的智能体技能实现自进化编码智能体
Socratic-SWE 提出了一种用于软件工程智能体的闭环自进化框架,该框架利用历史求解轨迹生成针对性修复任务,经过三次迭代后在 SWE-bench Verified 上达到 50.40%。
EvoCode-Bench:在多轮迭代交互中评估编码代理
介绍了EvoCode-Bench,这是一个包含26个有状态编码任务、共227轮评估的基准,用于评估多轮迭代交互中的编码代理,结果表明单轮性能高估了多轮能力22-40分。
Dialogue SWE-Bench:对话驱动编码代理的基准测试
提出了 Dialogue-SWE-Bench,这是一个用于评估编码代理通过与用户对话解决软件工程问题能力的基准测试。该研究还提出了一种基于角色设定的用户模拟器和一个能够提升对话能力的模式引导型代理。
SWE Context Bench 刚刚证明了一件我想很多编码代理用户已经感受到的事情
新的基准论文《SWE Context Bench》测试编码代理能否跨任务复用知识,凸显了现有基准仅评估孤立问题解决的不足。作者讨论了外部记忆等解决方案,并提到了 langmem、mem0、supermemory 和 Greplica 等工具。