Tim Davis – 概率化工程与 24/7 员工

Hacker News Top 2026/04/19 10:03 新闻

摘要

Modular 负责人 Tim Davis 分享了打造自主代码编写系统 Compound Loop 的经验。他指出，软件开发正从确定性范式向概率化系统演进，AI 智能体的介入催生了“全天候（24/7）员工”模式：人类操作者的角色从直接编码转向任务协调。与此同时，技术岗位的分工也在发生重构，逐渐分化为高杠杆价值的核心岗位与侧重 AI Agent 调度的基础性工作。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/04/21 05:44

# Tim Davis | 概率工程与全天候员工 Source: https://www.timdavis.com/blog/probabilistic-engineering-and-the-24-7-employee 软件正在悄然演变为一种概率系统，而几乎没有人公开指出这一点。我们这个行业是建立在确定性代码之上的。编写、测试、发布、确保其正常运行——但根据我的经验，这种契约正在瓦解。在真正AI原生公司的顶尖运营团队内部，代码库逐渐变成了一种你只能“相信”它能用的东西，而你再也无法精确说明其可用的概率。受此影响，工作日正在改变，职位、组织架构、培训体系以及“交付”的内涵也在随之演变。我之所以注意到这一点，是因为我自己构建了一个这样的系统。几个月前，在结束Modular的日常工作后，我开始利用业余时间开发一个名为Compound Loop的副业项目——这是一个编排多个前沿模型相互协作，以半自主方式编写、审查和合并代码的系统。我会在睡前启动它来处理一个真实问题，醒来时就能看到一堆前一天晚上还不存在的Pull Request等待处理。其中一些非常出色，一些存在错误，还有一些引出了我原本根本不知道该怎么问的问题。到了早上8点，我并没有在补做昨天的工作——而是在决定保留哪些夜间任务的成果，同时系统仍在持续分析日志并生成更多的PR。这种不断复利增长的特性令人着迷，至今依然如此。在知识工作的历史上，第一次出现了“下班离开的人并没有带走唯一的大脑副本”的情况。“9-9-6”作为一个概念已经死亡，我们现在本质上是“24-7员工”——但这并不意味着一个人要连续工作24小时，而是指一个人的智能体（agents）能够进行海量并行处理。2026年的大多数团队仍然瓶颈在协调环节而非打字速度上，大多数组织也才刚刚开始重组，但未来总会在最前沿率先显现，而前沿已经到来。这篇文章并非描述整个行业的宏观图景，而是描绘已经在最AI原生团队内部发生的事情，以及我相信这将如何拉动整个行业的下一步发展。 ## **角色不仅在向上整合，更在发生分化** 在最AI原生的团队内部，实际情况比大多数评论所渲染的“人人等级提升”的整齐叙事要复杂得多。确实有一些运营人员正在向更高阶跃迁：最优秀的工程师正变得更像高效的产品经理，工作在工程的抽象层；优秀的产品经理正演变为系统架构师；而顶尖的架构师则在思考分发策略、增长路径和市场格局。对于这群人（可能是任何团队的顶层），他们的工作杠杆率达到了前所未有的高度，正迎来职业生涯的黄金期。但这并不是全貌，假装它是会对其他人造成不公平。与向上跃迁并存的是，向下挤压的压力正在以头条新闻尚未覆盖的方式碎片化各种角色。许多工程师并没有成为架构师——相反，他们变成了需求规格撰写者、代码审查者和智能体保姆。这些运营人员整天忙于将意图转化为机器可读的提示词，然后根据可能连他们自己都不完全掌握的标准来给机器的产出打分。其中一部分工作确实至关重要，但也有相当一部分只是披着新术语外衣的2026年版“数据录入”。我们需要诚实地看待这对从事此类工作的人员意味着什么。这些被碎片化的角色薪酬会更低，价值评估更低，在很多情况下甚至会成为职业死胡同——这是一类系统需要但不予回报的“产出整理型”工作。在前三分之一梯队中有效驾驭智能体集群的人，与在中层管理其衍生产出的管理者之间，薪资差距将远超上一时代工程师与销售代表之间的差距。在我密切关注的公司内部，这一差距已经拉开，而且我认为它不会自行缩小。关于稀缺性工作流向的一个诚实观察：在AI基础设施领域，内核性能优化、编译器设计和硬件抽象仍然构成极深的防御壁垒，因为系统工程的最底层仍然需要高度的确定性。但在构建于这些壁垒之上的软件层面，重心已猛烈向人类输入倾斜——这是机器目前尚无法复制的部分，且这种转变真实且加速发生。 ## **杰文斯关于煤炭的论断是正确的，关于代码亦然** 1865年，经济学家威廉·斯坦利·杰文斯观察到，更高效的蒸汽机反而导致了*更多*煤炭消耗，而非更少——效率的提升扩大了值得建造蒸汽机的应用范围。我们正在经历软件领域的同一现象，这也是该行业有史以来最令人兴奋的时刻之一。随着编写代码的单件成本趋近于零，我们并没有写得更少，而是写得极多、发布得极多，而最好的团队正全力以赴拥抱这一趋势曲线。 **那些认为缩放定律没有边界的团队正据此布局，它们将成为服从幂律分布的赢家。** 我在许多领先AI原生公司的朋友已经在实践中快速推进。智能体正在自动发起Pull Request、互相审查代码并在人类从未碰过键盘的情况下完成合并，同时通过实时日志监控循环迅速修复问题。自愈合测试套件能在底层代码变更时自动重写自身。自主实验循环能在过去团队仅运行三个试验的时间里，自动拉起、测量并销毁一百个假设。文档更新也能借助精调的AI技能在合并时自动完成，而这些技能还在自我进化。我们正从一个特性迭代受限于工程师打字速度的世界，迈向一个受限于人类创造力、智能体系统管理能力以及产品面吸收产出速度的新世界。在我看来，现在是建设的绝佳时刻。吞吐量的提升并非微不足道，那些真正围绕智能体重构流程的团队，其交付量已是去年同期的三、五甚至十倍，且这条曲线仍在上扬而非走平。我接触的许多采用这种模式运营公司创始人和负责人并未抱怨噪音——他们苦恼的是如何让明天的智能体集群处理比今天更多的工作，因为每一单位定向良好的智能体输出，都是对仍在手动敲代码的竞争对手的复利优势。但杰文斯的第二个教训同样适用，也是区分顺势而为者与被淘汰者的关键：当供给爆发式增长时，筛选变得至关重要。更多的煤炭让蒸汽机更具价值，但也让“选择燃烧什么、驱动什么、用产物构建什么”的纪律变得更加重要。廉价能源若无判断力，便只是浪费；代码亦同理。对于这些运转良好的团队来说，筛选不是淹没性的难题——而是新的杠杆支点。能够将智能体集群导向正确问题、过滤出真正有价值的输出、并将结果整合为连贯体系的运营者，正在从事当前软件工程中最具杠杆效应的工作。一项工作的价值不再由其投入 effort 决定，因为 effort 已经崩塌——它取决于人们如何指引智能体集群、如何选择返回的结果，以及如何将其整合进能产生更快复利的体系中。生产不再是难点所在。现在的难点在于方向、筛选与一致性，而这正是顶尖团队正拼命苦练的核心能力。 ## **从确定性工程到概率工程** 我们正在快速从确定性工程转向概率工程，而我们的工具、培训体系和组织本能仍停留在旧范式中。确定性工程是贯穿我们行业历史大部分时间的契约——你写代码、测试、审查，然后在明确界定的范围内确信它的作用。故障是确定性的——给定相同输入，必得相同输出，Bug是可重现且可追踪的实体。概率工程则完全不同，而在最前沿团队中，它已然落地。代码库的大量部分由随机系统生成，在紧迫的时间压力下、面对超出人类心智承载极限的上下文进行审查，最终整合成一个没有任何单一人类从头到尾设计过的整体。代码库仍在运行和交付，但关于“这东西按预期工作了”的置信区间已经大幅拓宽，而大多数团队的操作规范尚未据此更新。这正是本轮变革核心不对称性的焦点：**生成已变得极其廉价，但验证却依旧昂贵。** 一个智能体可以在一分钟内生成长达500行的外观合理的Pull Request，但要在同一个PR中发现隐蔽的Bug——比如并发问题、对规范的无声误读，或是代码严格按字面要求执行却违背了实际意图的情况——可能需要资深工程师花费一小时仔细研读，甚至更久。审查的扩展性远不及生成，关键在于，审查的扩展性相对于产出量呈*次线性*衰退，因为你的代码库由智能体编写的比例越高，你在评估任意单个片段时需要脑海中保持的上下文就越大。你不再是对着自己写的代码库审查一个PR，而是对着一个主要由其他智能体编写、你已逐渐遗忘审查深度的代码库去审查一个PR，并且总是在不断上升的时间压力下工作。 **达到某个临界规模后，系统产生的内容将超过人类可靠评估的能力，正确性将从“确知”退化为“概率性”。** 这已经不是未来隐患，而是当下现实。突破某个吞吐量阈值后，Bug会漏网并非因为审查者粗心，而是因为产出量已超过人类注意力有意义的审查极限，而且承担大量审查工作的模型本身也具有非确定性，往往会遗漏大量问题。代码库不再是你*知道*它能用的东西，而是你*相信*它能用的东西，附带一个你已无法精确表述的成功概率。具体表现就是：一个竞态条件十次测试有九次通过；一个功能在预发环境完美运行，却在未预期的Prompt分布下崩溃；或者一次迁移静默损坏了万分之一行的数据，且需要三周才能被发现。Proximal 和 Modular近期发布了联合研究，测试前沿智能体系统（https://www.modular.com/blog/how-frontier-coding-agents-built-a-video-diffusion-pipeline-on-max）在基础任务上的表现——我们记录的失败模式直接印证了我上述的描述。我自己用多智能体框架写代码时也亲眼见过这种情况。典型的失败模式通常不是灾难性崩溃，而是缓慢的隐性退化——生成量上升，审查质量下滑，未被察觉的缺陷不断累积，对系统的信任在静默中侵蚀，直到客户投诉、审计排查或线上事故迫使问题浮出水面。到那时，技术债务早已积重难返。残酷的现实是我们目前还没有成熟的工具来解决这个问题。文化有一定帮助——合并粒度更小、门禁更严格、对抛光后的产出保持无情的怀疑态度、加强可观测性、严格执行回滚纪律——但文化在团队规模达到一定阈值后就失效了。我们今天用于评估概率代码的系统与所需相比显得十分原始。我希望有人能构建正确的工具链来解决这一问题，谁做到了，谁就将定义未来十年严肃软件开发的操作系统。新的CI/CD范式尚未成为成熟工具——目前它只是一种对输出保持无情怀疑的文化，以及坦诚承认我们正在实时构建替代这套文化的新体系。 ## **并非所有行业都以相同的速度演进** 从确定性向概率工程的转变不会均匀发生。技术扩散需要时间，法律与监管框架必然滞后于技术进步，因此这一转变将因行业和风险画像而异——了解分层逻辑对任何决策如何构建系统的人都至关重要。确定性层涵盖强监管和高危领域——航空电子、医疗设备、金融交易基础设施、核控制系统、支付网络核心等——这些领域将在很长时间内保持高度确定性，且理应如此。飞控系统中一次静默的正确性故障代价不是客户投诉，而是人命。这些领域会谨慎采用智能体辅助，置于形式化验证、大规模仿真和人为签核链条的保护之下，刻意放慢节奏。这不是缺乏想象力，而是对风险门槛的清醒认知。概率层则面向消费级软件、内部工具、营销系统、大多数SaaS、内容基础设施以及大多数实验性和早期阶段产品开发——这里正是概率工程火热运行且将快速加速的地带。这里的Bug代价只是一次回滚、一封致歉邮件和一个热修复补丁，但作为交换，该层团队能获得确定性世界在结构上无法匹配的迭代速度。一个愿意上线、度量并纠正的概率团队，每季度学习速度可超确定性竞争对手一个数量级。 “交汇区”是我所称的中间地带里的有趣未来，也是未来十年竞争展开的舞台。随着模型越来越聪明、包裹它们的编排框架越来越好、迭代循环压缩至接近实时，“安全到足以采用概率法”的前沿将不断推移。如今看似确定的领域——保险业部分板块、医疗健康、企业级基础设施部分环节——将眼睁睁看到概率方法从底层一寸寸渗透上来。这将是一个先慢后快的过程。与此同时，概率工程的前沿开始反向构建确定性护栏——形式化检查、已验证的关键路径、由确定性验证约束随机生成的混合系统。未来十年的赢家将是那些清楚自己身处哪一层、抵制假装身处另一层的诱惑、并极其精准地划定两层边界在自己技术栈中位置的团队。 ## **智能体集群** 我一直在思考如何准确比喻这场变革，答案不是“工厂流水线”，因为被自动化的系统是工人，而我们不是。我认为最贴切的隐喻是“智能体集群（agentic fleet）”，但我必须谨慎使用这个词，因为“fleet”带有秩序、层级和可靠性的意味，而现状还配不上这些光环。实际上，多数运营人员管理的更接近于一群脆弱的自由承包商，而不是一支训练有素的正规海军：各智能体能力参差不齐、行为具有随机性、偶尔会自信地犯错，且在规模化运行时成本高昂。编排层频繁出错，上下文窗口爆炸，推理成本出现在创始人和高管不愿提交董事会审议的账单上。尽管有这些前提，我依然认为智能体

Tim Davis – 概率化工程与 24/7 员工

相似文章

@saranormous: https://x.com/saranormous/status/2064510215056400652

@techwith_ram: https://x.com/techwith_ram/status/2064925285003542820

@Pragmatic_Eng: 旧软件工程模式因编码代理而回归。Dax Raad(@thdxr)，AI编码代理OpenCode的联合创始人…

@0xDepressionn: Karpathy: “我作为程序员从未感到如此落后。我已经做了20年。” 我观看了数百…

@mikenevermiss: https://x.com/mikenevermiss/status/2066401066518802637

提交意见反馈