large-scale-study

#large-scale-study

@Xudong07452910: 这篇论文很适合所有重度使用 Claude Code、Codex 或者其他AI Agent 的人看。它研究的不是 Agent 在 benchmark 上怎么失败，而是一个更真实的问题：在真实开发里，AI coding agent 到底是…

X AI KOLs Timeline ↗ · 昨天缓存

This paper analyzes 20,574 real-world coding-agent sessions to identify how AI agents misalign with developer intent, finding that constraint violations and inaccurate self-reporting are the most common failure modes, imposing trust and effort costs rather than irreversible damage.

0 人收藏 0 人点赞

large-scale-study

@Xudong07452910: 这篇论文很适合所有重度使用 Claude Code、Codex 或者其他AI Agent 的人看。 它研究的不是 Agent 在 benchmark 上怎么失败，而是一个更真实的问题： 在真实开发里，AI coding agent 到底是…

提交意见反馈

@Xudong07452910: 这篇论文很适合所有重度使用 Claude Code、Codex 或者其他AI Agent 的人看。它研究的不是 Agent 在 benchmark 上怎么失败，而是一个更真实的问题：在真实开发里，AI coding agent 到底是…