Tim Davis – 概率化工程与 24/7 员工
摘要
Modular 负责人 Tim Davis 分享了打造自主代码编写系统 Compound Loop 的经验。他指出,软件开发正从确定性范式向概率化系统演进,AI 智能体的介入催生了“全天候(24/7)员工”模式:人类操作者的角色从直接编码转向任务协调。与此同时,技术岗位的分工也在发生重构,逐渐分化为高杠杆价值的核心岗位与侧重 AI Agent 调度的基础性工作。
暂无内容
查看缓存全文
缓存时间: 2026/04/21 05:44
# Tim Davis | 概率工程与全天候员工
Source: https://www.timdavis.com/blog/probabilistic-engineering-and-the-24-7-employee
软件正在悄然演变为一种概率系统,而几乎没有人公开指出这一点。
我们这个行业是建立在确定性代码之上的。编写、测试、发布、确保其正常运行——但根据我的经验,这种契约正在瓦解。在真正AI原生公司的顶尖运营团队内部,代码库逐渐变成了一种你只能“相信”它能用的东西,而你再也无法精确说明其可用的概率。受此影响,工作日正在改变,职位、组织架构、培训体系以及“交付”的内涵也在随之演变。
我之所以注意到这一点,是因为我自己构建了一个这样的系统。
几个月前,在结束Modular的日常工作后,我开始利用业余时间开发一个名为Compound Loop的副业项目——这是一个编排多个前沿模型相互协作,以半自主方式编写、审查和合并代码的系统。我会在睡前启动它来处理一个真实问题,醒来时就能看到一堆前一天晚上还不存在的Pull Request等待处理。其中一些非常出色,一些存在错误,还有一些引出了我原本根本不知道该怎么问的问题。到了早上8点,我并没有在补做昨天的工作——而是在决定保留哪些夜间任务的成果,同时系统仍在持续分析日志并生成更多的PR。这种不断复利增长的特性令人着迷,至今依然如此。
在知识工作的历史上,第一次出现了“下班离开的人并没有带走唯一的大脑副本”的情况。“9-9-6”作为一个概念已经死亡,我们现在本质上是“24-7员工”——但这并不意味着一个人要连续工作24小时,而是指一个人的智能体(agents)能够进行海量并行处理。2026年的大多数团队仍然瓶颈在协调环节而非打字速度上,大多数组织也才刚刚开始重组,但未来总会在最前沿率先显现,而前沿已经到来。这篇文章并非描述整个行业的宏观图景,而是描绘已经在最AI原生团队内部发生的事情,以及我相信这将如何拉动整个行业的下一步发展。
## **角色不仅在向上整合,更在发生分化**
在最AI原生的团队内部,实际情况比大多数评论所渲染的“人人等级提升”的整齐叙事要复杂得多。确实有一些运营人员正在向更高阶跃迁:最优秀的工程师正变得更像高效的产品经理,工作在工程的抽象层;优秀的产品经理正演变为系统架构师;而顶尖的架构师则在思考分发策略、增长路径和市场格局。对于这群人(可能是任何团队的顶层),他们的工作杠杆率达到了前所未有的高度,正迎来职业生涯的黄金期。
但这并不是全貌,假装它是会对其他人造成不公平。与向上跃迁并存的是,向下挤压的压力正在以头条新闻尚未覆盖的方式碎片化各种角色。许多工程师并没有成为架构师——相反,他们变成了需求规格撰写者、代码审查者和智能体保姆。这些运营人员整天忙于将意图转化为机器可读的提示词,然后根据可能连他们自己都不完全掌握的标准来给机器的产出打分。其中一部分工作确实至关重要,但也有相当一部分只是披着新术语外衣的2026年版“数据录入”。
我们需要诚实地看待这对从事此类工作的人员意味着什么。这些被碎片化的角色薪酬会更低,价值评估更低,在很多情况下甚至会成为职业死胡同——这是一类系统需要但不予回报的“产出整理型”工作。在前三分之一梯队中有效驾驭智能体集群的人,与在中层管理其衍生产出的管理者之间,薪资差距将远超上一时代工程师与销售代表之间的差距。在我密切关注的公司内部,这一差距已经拉开,而且我认为它不会自行缩小。
关于稀缺性工作流向的一个诚实观察:在AI基础设施领域,内核性能优化、编译器设计和硬件抽象仍然构成极深的防御壁垒,因为系统工程的最底层仍然需要高度的确定性。但在构建于这些壁垒之上的软件层面,重心已猛烈向人类输入倾斜——这是机器目前尚无法复制的部分,且这种转变真实且加速发生。
## **杰文斯关于煤炭的论断是正确的,关于代码亦然**
1865年,经济学家威廉·斯坦利·杰文斯观察到,更高效的蒸汽机反而导致了*更多*煤炭消耗,而非更少——效率的提升扩大了值得建造蒸汽机的应用范围。我们正在经历软件领域的同一现象,这也是该行业有史以来最令人兴奋的时刻之一。随着编写代码的单件成本趋近于零,我们并没有写得更少,而是写得极多、发布得极多,而最好的团队正全力以赴拥抱这一趋势曲线。
**那些认为缩放定律没有边界的团队正据此布局,它们将成为服从幂律分布的赢家。**
我在许多领先AI原生公司的朋友已经在实践中快速推进。智能体正在自动发起Pull Request、互相审查代码并在人类从未碰过键盘的情况下完成合并,同时通过实时日志监控循环迅速修复问题。自愈合测试套件能在底层代码变更时自动重写自身。自主实验循环能在过去团队仅运行三个试验的时间里,自动拉起、测量并销毁一百个假设。文档更新也能借助精调的AI技能在合并时自动完成,而这些技能还在自我进化。我们正从一个特性迭代受限于工程师打字速度的世界,迈向一个受限于人类创造力、智能体系统管理能力以及产品面吸收产出速度的新世界。
在我看来,现在是建设的绝佳时刻。吞吐量的提升并非微不足道,那些真正围绕智能体重构流程的团队,其交付量已是去年同期的三、五甚至十倍,且这条曲线仍在上扬而非走平。我接触的许多采用这种模式运营公司创始人和负责人并未抱怨噪音——他们苦恼的是如何让明天的智能体集群处理比今天更多的工作,因为每一单位定向良好的智能体输出,都是对仍在手动敲代码的竞争对手的复利优势。
但杰文斯的第二个教训同样适用,也是区分顺势而为者与被淘汰者的关键:当供给爆发式增长时,筛选变得至关重要。更多的煤炭让蒸汽机更具价值,但也让“选择燃烧什么、驱动什么、用产物构建什么”的纪律变得更加重要。廉价能源若无判断力,便只是浪费;代码亦同理。
对于这些运转良好的团队来说,筛选不是淹没性的难题——而是新的杠杆支点。能够将智能体集群导向正确问题、过滤出真正有价值的输出、并将结果整合为连贯体系的运营者,正在从事当前软件工程中最具杠杆效应的工作。一项工作的价值不再由其投入 effort 决定,因为 effort 已经崩塌——它取决于人们如何指引智能体集群、如何选择返回的结果,以及如何将其整合进能产生更快复利的体系中。生产不再是难点所在。现在的难点在于方向、筛选与一致性,而这正是顶尖团队正拼命苦练的核心能力。
## **从确定性工程到概率工程**
我们正在快速从确定性工程转向概率工程,而我们的工具、培训体系和组织本能仍停留在旧范式中。确定性工程是贯穿我们行业历史大部分时间的契约——你写代码、测试、审查,然后在明确界定的范围内确信它的作用。故障是确定性的——给定相同输入,必得相同输出,Bug是可重现且可追踪的实体。
概率工程则完全不同,而在最前沿团队中,它已然落地。代码库的大量部分由随机系统生成,在紧迫的时间压力下、面对超出人类心智承载极限的上下文进行审查,最终整合成一个没有任何单一人类从头到尾设计过的整体。代码库仍在运行和交付,但关于“这东西按预期工作了”的置信区间已经大幅拓宽,而大多数团队的操作规范尚未据此更新。这正是本轮变革核心不对称性的焦点:**生成已变得极其廉价,但验证却依旧昂贵。**
一个智能体可以在一分钟内生成长达500行的外观合理的Pull Request,但要在同一个PR中发现隐蔽的Bug——比如并发问题、对规范的无声误读,或是代码严格按字面要求执行却违背了实际意图的情况——可能需要资深工程师花费一小时仔细研读,甚至更久。审查的扩展性远不及生成,关键在于,审查的扩展性相对于产出量呈*次线性*衰退,因为你的代码库由智能体编写的比例越高,你在评估任意单个片段时需要脑海中保持的上下文就越大。你不再是对着自己写的代码库审查一个PR,而是对着一个主要由其他智能体编写、你已逐渐遗忘审查深度的代码库去审查一个PR,并且总是在不断上升的时间压力下工作。
**达到某个临界规模后,系统产生的内容将超过人类可靠评估的能力,正确性将从“确知”退化为“概率性”。**
这已经不是未来隐患,而是当下现实。突破某个吞吐量阈值后,Bug会漏网并非因为审查者粗心,而是因为产出量已超过人类注意力有意义的审查极限,而且承担大量审查工作的模型本身也具有非确定性,往往会遗漏大量问题。代码库不再是你*知道*它能用的东西,而是你*相信*它能用的东西,附带一个你已无法精确表述的成功概率。
具体表现就是:一个竞态条件十次测试有九次通过;一个功能在预发环境完美运行,却在未预期的Prompt分布下崩溃;或者一次迁移静默损坏了万分之一行的数据,且需要三周才能被发现。Proximal 和 Modular近期发布了联合研究,测试前沿智能体系统(https://www.modular.com/blog/how-frontier-coding-agents-built-a-video-diffusion-pipeline-on-max)在基础任务上的表现——我们记录的失败模式直接印证了我上述的描述。我自己用多智能体框架写代码时也亲眼见过这种情况。典型的失败模式通常不是灾难性崩溃,而是缓慢的隐性退化——生成量上升,审查质量下滑,未被察觉的缺陷不断累积,对系统的信任在静默中侵蚀,直到客户投诉、审计排查或线上事故迫使问题浮出水面。到那时,技术债务早已积重难返。
残酷的现实是我们目前还没有成熟的工具来解决这个问题。文化有一定帮助——合并粒度更小、门禁更严格、对抛光后的产出保持无情的怀疑态度、加强可观测性、严格执行回滚纪律——但文化在团队规模达到一定阈值后就失效了。我们今天用于评估概率代码的系统与所需相比显得十分原始。我希望有人能构建正确的工具链来解决这一问题,谁做到了,谁就将定义未来十年严肃软件开发的操作系统。新的CI/CD范式尚未成为成熟工具——目前它只是一种对输出保持无情怀疑的文化,以及坦诚承认我们正在实时构建替代这套文化的新体系。
## **并非所有行业都以相同的速度演进**
从确定性向概率工程的转变不会均匀发生。技术扩散需要时间,法律与监管框架必然滞后于技术进步,因此这一转变将因行业和风险画像而异——了解分层逻辑对任何决策如何构建系统的人都至关重要。
确定性层涵盖强监管和高危领域——航空电子、医疗设备、金融交易基础设施、核控制系统、支付网络核心等——这些领域将在很长时间内保持高度确定性,且理应如此。飞控系统中一次静默的正确性故障代价不是客户投诉,而是人命。这些领域会谨慎采用智能体辅助,置于形式化验证、大规模仿真和人为签核链条的保护之下,刻意放慢节奏。这不是缺乏想象力,而是对风险门槛的清醒认知。
概率层则面向消费级软件、内部工具、营销系统、大多数SaaS、内容基础设施以及大多数实验性和早期阶段产品开发——这里正是概率工程火热运行且将快速加速的地带。这里的Bug代价只是一次回滚、一封致歉邮件和一个热修复补丁,但作为交换,该层团队能获得确定性世界在结构上无法匹配的迭代速度。一个愿意上线、度量并纠正的概率团队,每季度学习速度可超确定性竞争对手一个数量级。
“交汇区”是我所称的中间地带里的有趣未来,也是未来十年竞争展开的舞台。随着模型越来越聪明、包裹它们的编排框架越来越好、迭代循环压缩至接近实时,“安全到足以采用概率法”的前沿将不断推移。如今看似确定的领域——保险业部分板块、医疗健康、企业级基础设施部分环节——将眼睁睁看到概率方法从底层一寸寸渗透上来。这将是一个先慢后快的过程。与此同时,概率工程的前沿开始反向构建确定性护栏——形式化检查、已验证的关键路径、由确定性验证约束随机生成的混合系统。
未来十年的赢家将是那些清楚自己身处哪一层、抵制假装身处另一层的诱惑、并极其精准地划定两层边界在自己技术栈中位置的团队。
## **智能体集群**
我一直在思考如何准确比喻这场变革,答案不是“工厂流水线”,因为被自动化的系统是工人,而我们不是。我认为最贴切的隐喻是“智能体集群(agentic fleet)”,但我必须谨慎使用这个词,因为“fleet”带有秩序、层级和可靠性的意味,而现状还配不上这些光环。实际上,多数运营人员管理的更接近于一群脆弱的自由承包商,而不是一支训练有素的正规海军:各智能体能力参差不齐、行为具有随机性、偶尔会自信地犯错,且在规模化运行时成本高昂。编排层频繁出错,上下文窗口爆炸,推理成本出现在创始人和高管不愿提交董事会审议的账单上。
尽管有这些前提,我依然认为智能体
相似文章
@saranormous: https://x.com/saranormous/status/2064510215056400652
尽管以Devin为代表的AI编程助手取得了快速进展,显著提升了代码编写和交付的速度,但本文认为,软件工程中最有价值的部分仍难以通过基准测试衡量,并且需要人类的判断和组织协调,这些是无法轻易自动化的。
@techwith_ram: https://x.com/techwith_ram/status/2064925285003542820
探讨了AI编程中从人类在环到自主代理循环的转变,其中代理自我提示并迭代,讨论了减少人类控制的前景与隐藏成本。
@Pragmatic_Eng: 旧软件工程模式因编码代理而回归。Dax Raad(@thdxr),AI编码代理OpenCode的联合创始人…
Dax Raad,AI编码代理OpenCode的联合创始人,认为像领域驱动设计这样的旧软件工程模式正在重新变得相关,因为编码代理虽然高效,但需要更多的防护措施;这些模式曾因冗长而令人痛苦,而现在AI处理了这些冗长部分。
@0xDepressionn: Karpathy: “我作为程序员从未感到如此落后。我已经做了20年。” 我观看了数百…
Andrej Karpathy 分享了对快速转向 AI 辅助编程的见解,预测 2025-2035 年是‘智能体十年’,并描述了他个人在短短 30 天内从 80% 手动编码转变为 80% AI 编码的过程。
@mikenevermiss: https://x.com/mikenevermiss/status/2066401066518802637
Boris Cherny 等人描述了从提示 AI 代理转向设计持续运行的自主循环,利用内存文件和评估器模式来保证代码质量。