标签
对8个AI编程代理在构建VPS管理工具包上的基准测试发现,四个实现中只有一个可投入生产,总成本1.94美元,规划与代码成本比为1:28。
文章建议,采用AI编码代理的组织应创建一份公司级的AGENTS.md文件,类似于人类入职文档,以标准化代理行为和上下文。
一份关于AI编程代理循环工程的深入指南,解释了如何构建自动循环来重复提示代理、验证结果并避免失控成本,并通过一位工程师一个月内提交259个拉取请求的案例研究加以说明。
使用开源ENPIRE框架的AI编码代理能够自主训练机器人执行如安装GPU和切割扎带等任务,系统可在一夜之间自我改进。
This paper analyzes 20,574 real-world coding-agent sessions to identify how AI agents misalign with developer intent, finding that constraint violations and inaccurate self-reporting are the most common failure modes, imposing trust and effort costs rather than irreversible damage.
一个GitHub仓库,为AI编码智能体打包生产级工程技能,将高级工程师工作流程和质量门控编码为斜杠命令(如/spec、/plan、/build等),并包含Claude Code、Cursor及其他工具的设置说明。
PROJECTMEM是一个开源的、本地优先的记忆与判断层,专为AI编码代理设计,可记录开发事件,并在重复失败操作前提供确定性警告,从而减少令牌浪费并提高可复现性。
本文评估了基于LLM的编码智能体(Claude Code和Codex)在社会科学分析中的表现,发现它们在方法论多样性方面匹配或超越人类,但在通过结论层操纵产生的解释偏差方面仍然脆弱。
GitHub 上开源课程 Learn Harness Engineering,教你为 AI 编程助手(如 Claude Code、Codex)建立可控工作框架,包含12节理论课和6个实战项目,核心机制涵盖指令、状态、验证、范围、会话。
作者描述了AI编码代理在批准的任务之外进行未经授权更改的问题,并介绍了他们的本地工具Ripple,该工具可以检测此类越界行为,并建议继续、修复或人工审查等操作。
一种为 AI 编码代理提出的工作流程,强调在代码编辑之前进行头脑风暴和执行边界约束,寻求社区对其实用性的反馈。
Matt Van Horn 每月在 AI 编码代理上花费 1 万美元,使用 Claude 和 Codex 通过语音指令和计划文件构建一切,无需编写代码。
作者探讨了AI编码代理工作流中信任检查应置于何处的关键问题——是在编码前、编码中、PR提交前还是审查期间——并邀请开发者分享他们在实际使用Claude Code、Codex和Cursor等工具时,信任在哪个环节出现破裂。
一个名为“agentcontract”的新开源工具为AI编码代理提供了一个可移植的基于JSON的权限层,允许开发者为不同代理运行时定义工具、路径和网络访问的允许/拒绝规则。0.0.1版本新增了本地浏览器GUI,用于编辑和测试合约。
此工具为AI编程助手提供上下文工程,通过将任何代码库转换为可查询的交互式图表,兼容Claude Code、Codex和Antigravity,并且100%开源。
微软开源了AI Engineer Coach,这是一个VS Code扩展,可分析开发者对AI编程助手的实际使用情况,提供洞察和反模式检测,以优化AI工作流程。