SWE-chat:来自真实用户场景中的编码代理交互
摘要
SWE-chat 发布了包含 6,000 场真实编码代理会话的数据集,显示仅有 44% 的代理生成代码最终进入提交,并揭示当前 AI 辅助开发中的效率与安全缺陷。
查看缓存全文
缓存时间: 2026/04/23 03:35
论文页面 - SWE-chat:来自真实用户的野外编程智能体交互
来源:https://huggingface.co/papers/2604.20779
摘要
SWE-chat 提供了一个大规模的真实编程智能体交互数据集,揭示了当前 AI 辅助开发实践中的显著低效与挑战。
AI 编程智能体正被大规模采用,但我们仍缺乏实证证据,了解人们究竟如何使用它们,以及它们的输出在实践中有多大用处。我们推出 SWE-chat——首个大规模真实编程智能体会话数据集,采集自开源开发者的真实环境。数据集目前包含 6,000 场会话,涵盖 63,000 余条用户提示与 355,000 次智能体工具调用。SWE-chat 是一个“活体”数据集;我们的采集流水线会自动、持续地从公开仓库发现与处理新会话。
借助 SWE-chat,我们对真实世界编程智能体的使用方式与失效模式进行了初步实证刻画。我们发现编码模式呈双峰分布:41% 的会话中,智能体几乎包揽了所有提交代码(“氛围编程”),而 23% 的会话里人类完全自己写代码。尽管能力快速提升,智能体在自然场景下仍显低效:仅有 44% 的智能体生成代码最终留在用户提交中,且智能体编写的代码比人类代码引入更多安全漏洞。此外,用户在 44% 的回合中对智能体输出进行“回滚”——通过修正、报错或打断。
通过捕获完整的交互轨迹,并标注人类 vs 智能体的代码作者身份,SWE-chat 为超越精心策划的基准测试提供了实证基础,使我们能基于证据理解 AI 智能体在真实开发者工作流中的表现。
查看 arXiv 页面 (https://arxiv.org/abs/2604.20779)
查看 PDF (https://arxiv.org/pdf/2604.20779)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.20779)
在智能体中获取本文:
hf papers read 2604.20779
还没装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用本论文的模型 0
暂无模型关联
在模型 README.md 中引用 arxiv.org/abs/2604.20779 即可在此页面显示链接。
引用本论文的数据集 0
暂无数据集关联
在数据集 README.md 中引用 arxiv.org/abs/2604.20779 即可在此页面显示链接。
引用本论文的 Spaces 0
暂无 Space 关联
在 Space README.md 中引用 arxiv.org/abs/2604.20779 即可在此页面显示链接。
包含本论文的收藏 0
暂无收藏
创建新收藏 并将本论文加入,即可在此页面显示链接。
相似文章
Socratic-SWE:基于轨迹派生的智能体技能实现自进化编码智能体
Socratic-SWE 提出了一种用于软件工程智能体的闭环自进化框架,该框架利用历史求解轨迹生成针对性修复任务,经过三次迭代后在 SWE-bench Verified 上达到 50.40%。
@Xudong07452910: 这篇论文很适合所有重度使用 Claude Code、Codex 或者其他AI Agent 的人看。 它研究的不是 Agent 在 benchmark 上怎么失败,而是一个更真实的问题: 在真实开发里,AI coding agent 到底是…
This paper analyzes 20,574 real-world coding-agent sessions to identify how AI agents misalign with developer intent, finding that constraint violations and inaccurate self-reporting are the most common failure modes, imposing trust and effort costs rather than irreversible damage.
Dialogue SWE-Bench:对话驱动编码代理的基准测试
提出了 Dialogue-SWE-Bench,这是一个用于评估编码代理通过与用户对话解决软件工程问题能力的基准测试。该研究还提出了一种基于角色设定的用户模拟器和一个能够提升对话能力的模式引导型代理。
2026年AI编程代理输出验证:查看差异、氛围检查再合并
关于当前AI编程代理输出验证实践的一点反思,指出开发者通常只是粗略查看差异就合并,而没有全面审计代理的会话活动,引发了对AI时代代码审查文化的担忧。
Agentic Code Review(15分钟阅读)
分析AI编码代理如何将瓶颈从编写代码转移到审查代码,数据显示代码变更量增加861%,缺陷率上升,使得代码审查成为软件工程中最具杠杆效应的技能。