编程助手是否应以节省多少人类注意力来衡量?
摘要
文章认为,当前对编程助手的衡量指标(如代码行数、速度)忽略了更重要的衡量标准——节省了多少人类注意力,因为持续的监督会抵消时间节省。
我认为许多关于编程助手的讨论仍然在衡量错误的东西。人们会问:* 它写了多少代码?* 它完成得有多快?* 它完成了多少任务?* 它使用了多少token?但在实际开发中,稀缺资源通常是人类的注意力。如果一个助手写了很多代码但依然需要持续监督、反复纠正、差异审查、调试、清理,以及“这真的是对的吗?”这样的检查,那么它可能并没有看起来那么节省时间。也许更好的问题是:助手从工作流中移除了多少人类注意力?对于认真使用编程助手的人来说:什么实际上最节省时间?更少的输入?更好的初稿?更少的修正?更清晰的差异?更好的测试?还是仅仅能更快地信任输出?
相似文章
编程代理是否变得昂贵,还是我们对成本的衡量方式有误?
本文质疑编程代理的真实成本是否包含隐藏的人力监督和调试,认为真正的价值应以可信输出来衡量,而非原始 token 消耗。
规格驱动的智能体编程正在悄然削弱我们监督智能体的能力
作者认为,过度依赖 AI 编程智能体会导致人类开发者逐渐丧失关键的技术直觉和代码审查技能,并提出了诸如强制手动编码日等措施,以维持监督能力。
编码代理是否带来了新的审查问题?
本文讨论了虽然编码代理能够有效生成代码,但它们却在审查和信任变更方面引入了新的瓶颈,质疑代理是减少了审查工作量还是转移了审查工作量。
@saranormous: https://x.com/saranormous/status/2064510215056400652
尽管以Devin为代表的AI编程助手取得了快速进展,显著提升了代码编写和交付的速度,但本文认为,软件工程中最有价值的部分仍难以通过基准测试衡量,并且需要人类的判断和组织协调,这些是无法轻易自动化的。
代码行数找到了更好的宣传者
本文批评了AI编程工具供应商从基于结果的效率声明(例如,任务完成速度提高55%)转向基于数量的声明(例如,75%的代码由AI生成),认为后者意义不大且更难证伪。