SWE-chat:来自真实用户场景中的编码代理交互

Hugging Face Daily Papers 论文

摘要

SWE-chat 发布了包含 6,000 场真实编码代理会话的数据集,显示仅有 44% 的代理生成代码最终进入提交,并揭示当前 AI 辅助开发中的效率与安全缺陷。

AI 编码代理正被大规模采用,但我们仍缺乏关于人们实际如何使用它们、以及其输出在实践中有多大用处的实证证据。我们推出 SWE-chat,这是首个大规模、采集自开源开发者真实场景的编码代理会话数据集。目前数据集包含 6,000 场会话,涵盖超过 63,000 条用户提示与 355,000 次代理工具调用。SWE-chat 是一个“活”数据集;我们的采集管道可持续自动发现并处理公开仓库中的会话。借助 SWE-chat,我们对真实世界编码代理的使用方式与失效模式进行了初步实证刻画。我们发现编码模式呈双峰分布:41% 的会话中,代理几乎撰写了所有被提交的代码(“vibe coding”),而 23% 的会话里人类完全自行编写代码。尽管能力迅速提升,编码代理在自然场景中依旧低效:仅有 44% 的代理产出代码最终进入用户提交,且相比人类代码,代理代码引入的安全漏洞更多。此外,用户在 44% 的回合中对代理输出进行“回击”——包括修正、报错与中断。通过完整记录交互轨迹并区分人类与代理的代码作者身份,SWE-chat 为超越精心策划的基准测试、迈向基于证据地理解 AI 代理在真实开发者工作流中的表现,提供了实证基础。
查看原文
查看缓存全文

缓存时间: 2026/04/23 03:35

论文页面 - SWE-chat:来自真实用户的野外编程智能体交互

来源:https://huggingface.co/papers/2604.20779

摘要

SWE-chat 提供了一个大规模的真实编程智能体交互数据集,揭示了当前 AI 辅助开发实践中的显著低效与挑战。

AI 编程智能体正被大规模采用,但我们仍缺乏实证证据,了解人们究竟如何使用它们,以及它们的输出在实践中有多大用处。我们推出 SWE-chat——首个大规模真实编程智能体会话数据集,采集自开源开发者的真实环境。数据集目前包含 6,000 场会话,涵盖 63,000 余条用户提示与 355,000 次智能体工具调用。SWE-chat 是一个“活体”数据集;我们的采集流水线会自动、持续地从公开仓库发现与处理新会话。

借助 SWE-chat,我们对真实世界编程智能体的使用方式与失效模式进行了初步实证刻画。我们发现编码模式呈双峰分布:41% 的会话中,智能体几乎包揽了所有提交代码(“氛围编程”),而 23% 的会话里人类完全自己写代码。尽管能力快速提升,智能体在自然场景下仍显低效:仅有 44% 的智能体生成代码最终留在用户提交中,且智能体编写的代码比人类代码引入更多安全漏洞。此外,用户在 44% 的回合中对智能体输出进行“回滚”——通过修正、报错或打断。

通过捕获完整的交互轨迹,并标注人类 vs 智能体的代码作者身份,SWE-chat 为超越精心策划的基准测试提供了实证基础,使我们能基于证据理解 AI 智能体在真实开发者工作流中的表现。

查看 arXiv 页面 (https://arxiv.org/abs/2604.20779)
查看 PDF (https://arxiv.org/pdf/2604.20779)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.20779)

在智能体中获取本文:

hf papers read 2604.20779

还没装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型 0

暂无模型关联

在模型 README.md 中引用 arxiv.org/abs/2604.20779 即可在此页面显示链接。

引用本论文的数据集 0

暂无数据集关联

在数据集 README.md 中引用 arxiv.org/abs/2604.20779 即可在此页面显示链接。

引用本论文的 Spaces 0

暂无 Space 关联

在 Space README.md 中引用 arxiv.org/abs/2604.20779 即可在此页面显示链接。

包含本论文的收藏 0

暂无收藏

创建新收藏 并将本论文加入,即可在此页面显示链接。

相似文章

@Xudong07452910: 这篇论文很适合所有重度使用 Claude Code、Codex 或者其他AI Agent 的人看。 它研究的不是 Agent 在 benchmark 上怎么失败,而是一个更真实的问题: 在真实开发里,AI coding agent 到底是…

X AI KOLs Timeline

This paper analyzes 20,574 real-world coding-agent sessions to identify how AI agents misalign with developer intent, finding that constraint violations and inaccurate self-reporting are the most common failure modes, imposing trust and effort costs rather than irreversible damage.

Dialogue SWE-Bench:对话驱动编码代理的基准测试

arXiv cs.CL

提出了 Dialogue-SWE-Bench,这是一个用于评估编码代理通过与用户对话解决软件工程问题能力的基准测试。该研究还提出了一种基于角色设定的用户模拟器和一个能够提升对话能力的模式引导型代理。

Agentic Code Review(15分钟阅读)

TLDR AI

分析AI编码代理如何将瓶颈从编写代码转移到审查代码,数据显示代码变更量增加861%,缺陷率上升,使得代码审查成为软件工程中最具杠杆效应的技能。