SWE-Together: 在交互式用户会话中评估代码代理

Hugging Face Daily Papers 2026/06/29 00:00 论文

coding-agents benchmark multi-turn interaction-simulator user-simulator llm repository-level-tasks

摘要

SWE-Together 是一个基于真实用户-代理交互创建的多轮代码基准测试，采用反应式LLM模拟器，根据最终正确性和交互效率评估代理。

大多数代码代理基准测试是静态的：代理提前接收完整的任务描述，仅根据最终代码进行评判。实际的代码辅助是交互式的，用户会在多轮对话中澄清目标、添加约束并纠正错误。我们引入了 SWE-Together，这是一个从真实用户-代理编码对话中重建的多轮基准测试。为了使真实交互可验证，我们从11,260条记录会话中精选了109个仓库级任务，选择了具有可恢复仓库状态、明确用户目标和可观察结果的会话。为了在不同代理上重放这些交互，我们构建了一个基于LLM的反应式用户模拟器，它保留原始用户的意图，并在代码代理需要时提供反馈。为了评估代理作为协作者的能力，我们既衡量最终仓库的正确性，也衡量交互过程中所需的纠正反馈轮次数量。与前沿代码代理的实验表明，更强的代理通常能达到更高的最终成功率，同时需要更少的干预，这表明用户体验得到了改善。

查看原文

查看缓存全文

缓存时间: 2026/06/30 19:37

论文页面 - SWE-Together：评估交互式用户会话中的编码代理

来源：https://huggingface.co/papers/2606.29957 作者：

摘要

SWE-Together 是一个基于真实用户-代理交互构建的多轮编码基准，它采用反应式 LLM 模拟器来根据最终正确性和交互效率两个维度评估代理。

大多数编码代理基准 (https://huggingface.co/papers?q=coding-agent%20benchmarks) 是静态的：代理在开始时接收到完整的任务描述，最终仅根据其代码进行评判。而真实的编码辅助是交互式的，用户会澄清目标、添加约束并在多个回合中纠正错误。我们引入了 SWE-Together，这是一个从真实用户-代理编码会话 (https://huggingface.co/papers?q=user-agent%20coding%20sessions) 重建的多轮基准 (https://huggingface.co/papers?q=multi-turn%20benchmark)。为使真实交互可验证，我们从 11,260 条已记录的会话中精选了 109 个仓库级任务 (https://huggingface.co/papers?q=repository-level%20tasks)，选择了那些具有可恢复仓库状态、清晰用户目标以及可观察结果的会话。为了在不同代理上重放这些交互，我们构建了一个基于 LLM 的反应式用户模拟器 (https://huggingface.co/papers?q=user%20simulator)，该模拟器保留了原始用户的意图，并在编码代理的进展需要时提供反馈。为了将代理作为协作者进行评估，我们同时衡量最终仓库正确性 (https://huggingface.co/papers?q=final%20repository%20correctness) 以及交互过程中所需的纠正性反馈回合数 (https://huggingface.co/papers?q=corrective%20feedback%20turns)。对前沿编码代理的实验表明，更强的代理通常能达到更高的最终成功率，同时需要更少的干预，这意味着用户体验得到了改善。

查看 arXiv 页面 (https://arxiv.org/abs/2606.29957)
查看 PDF (https://arxiv.org/pdf/2606.29957)
项目页面 (https://togetherbench.com/)
GitHub2 (https://github.com/Togetherbench/SWE-Together)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.29957)

在您的代理中获取此论文：

hf papers read 2606.29957

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 (0)

没有模型链接到此论文
在模型 README.md 中引用 arxiv.org/abs/2606.29957 以将其链接到此页面。

引用该论文的数据集 (0)

没有数据集链接到此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.29957 以将其链接到此页面。

引用该论文的 Spaces (0)

没有 Space 链接到此论文
在 Space README.md 中引用 arxiv.org/abs/2606.29957 以将其链接到此页面。

包含该论文的收藏集 (0)

没有收藏集包含此论文
将此论文添加到收藏集 (https://huggingface.co/new-collection) 以将其链接到此页面。

SWE-Together: 在交互式用户会话中评估代码代理

论文页面 - SWE-Together：评估交互式用户会话中的编码代理

摘要

引用该论文的模型 (0)

引用该论文的数据集 (0)

引用该论文的 Spaces (0)

包含该论文的收藏集 (0)

相似文章

SWE-chat：来自真实用户场景中的编码代理交互

Socratic-SWE：基于轨迹派生的智能体技能实现自进化编码智能体

EvoCode-Bench：在多轮迭代交互中评估编码代理

Dialogue SWE-Bench：对话驱动编码代理的基准测试

SWE Context Bench 刚刚证明了一件我想很多编码代理用户已经感受到的事情

提交意见反馈