SWE-Together: 在交互式用户会话中评估代码代理

Hugging Face Daily Papers 论文

摘要

SWE-Together 是一个基于真实用户-代理交互创建的多轮代码基准测试,采用反应式LLM模拟器,根据最终正确性和交互效率评估代理。

大多数代码代理基准测试是静态的:代理提前接收完整的任务描述,仅根据最终代码进行评判。实际的代码辅助是交互式的,用户会在多轮对话中澄清目标、添加约束并纠正错误。我们引入了 SWE-Together,这是一个从真实用户-代理编码对话中重建的多轮基准测试。为了使真实交互可验证,我们从11,260条记录会话中精选了109个仓库级任务,选择了具有可恢复仓库状态、明确用户目标和可观察结果的会话。为了在不同代理上重放这些交互,我们构建了一个基于LLM的反应式用户模拟器,它保留原始用户的意图,并在代码代理需要时提供反馈。为了评估代理作为协作者的能力,我们既衡量最终仓库的正确性,也衡量交互过程中所需的纠正反馈轮次数量。与前沿代码代理的实验表明,更强的代理通常能达到更高的最终成功率,同时需要更少的干预,这表明用户体验得到了改善。
查看原文
查看缓存全文

缓存时间: 2026/06/30 19:37

论文页面 - SWE-Together:评估交互式用户会话中的编码代理

来源:https://huggingface.co/papers/2606.29957 作者:

,

,

,

,

,

,

,

,

,

摘要

SWE-Together 是一个基于真实用户-代理交互构建的多轮编码基准,它采用反应式 LLM 模拟器来根据最终正确性和交互效率两个维度评估代理。

大多数编码代理基准 (https://huggingface.co/papers?q=coding-agent%20benchmarks) 是静态的:代理在开始时接收到完整的任务描述,最终仅根据其代码进行评判。而真实的编码辅助是交互式的,用户会澄清目标、添加约束并在多个回合中纠正错误。我们引入了 SWE-Together,这是一个从真实用户-代理编码会话 (https://huggingface.co/papers?q=user-agent%20coding%20sessions) 重建的多轮基准 (https://huggingface.co/papers?q=multi-turn%20benchmark)。为使真实交互可验证,我们从 11,260 条已记录的会话中精选了 109 个仓库级任务 (https://huggingface.co/papers?q=repository-level%20tasks),选择了那些具有可恢复仓库状态、清晰用户目标以及可观察结果的会话。为了在不同代理上重放这些交互,我们构建了一个基于 LLM 的反应式用户模拟器 (https://huggingface.co/papers?q=user%20simulator),该模拟器保留了原始用户的意图,并在编码代理的进展需要时提供反馈。为了将代理作为协作者进行评估,我们同时衡量最终仓库正确性 (https://huggingface.co/papers?q=final%20repository%20correctness) 以及交互过程中所需的纠正性反馈回合数 (https://huggingface.co/papers?q=corrective%20feedback%20turns)。对前沿编码代理的实验表明,更强的代理通常能达到更高的最终成功率,同时需要更少的干预,这意味着用户体验得到了改善。

查看 arXiv 页面 (https://arxiv.org/abs/2606.29957)
查看 PDF (https://arxiv.org/pdf/2606.29957)
项目页面 (https://togetherbench.com/)
GitHub2 (https://github.com/Togetherbench/SWE-Together)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.29957)

在您的代理中获取此论文:

hf papers read 2606.29957

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 (0)

没有模型链接到此论文
在模型 README.md 中引用 arxiv.org/abs/2606.29957 以将其链接到此页面。

引用该论文的数据集 (0)

没有数据集链接到此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.29957 以将其链接到此页面。

引用该论文的 Spaces (0)

没有 Space 链接到此论文
在 Space README.md 中引用 arxiv.org/abs/2606.29957 以将其链接到此页面。

包含该论文的收藏集 (0)

没有收藏集包含此论文
将此论文添加到收藏集 (https://huggingface.co/new-collection) 以将其链接到此页面。

相似文章

Dialogue SWE-Bench:对话驱动编码代理的基准测试

arXiv cs.CL

提出了 Dialogue-SWE-Bench,这是一个用于评估编码代理通过与用户对话解决软件工程问题能力的基准测试。该研究还提出了一种基于角色设定的用户模拟器和一个能够提升对话能力的模式引导型代理。