@charliewarren: https://x.com/charliewarren/status/2062204573549490516
摘要
文章讨论了构建AI原生服务公司所面临的挑战,强调降低工作质量方差对于建立信任和实现规模化至关重要,其重要性甚至超过运营杠杆本身。
查看缓存全文
缓存时间: 2026/06/03 21:55
信任AI原生服务公司
AI原生服务公司是那些重塑保险、律所、会计事务所等行业的初创企业,它们大量依赖大语言模型(LLM)来完成工作。这个赛道尚处早期阶段,但潜在回报是数万亿美元的劳动力支出——相比之下,过去的IT预算现在看来简直微不足道。[1] 和许多AI应用一样,这一领域也不乏炒作。
目前,外界对创始人的谨慎提醒主要集中在毛利率上。[2] 这些公司能否让收入增长快于销售成本(COGS),并压缩交付周期?“专注规模化”是我最常听到的口号。
在接触过这类新型初创公司后,我认为运营杠杆虽必要,但不足以实现产品市场匹配。
AI原生服务公司的成功与否,取决于它们能否降低“变异性”。我所说的变异性,是指交付给终端客户的工作产品质量存在显著的不一致性。低质量工作会侵蚀信任,导致客户流失。而对这类初创公司而言,造成最大变异性的往往不是LLM,而是人。
对于AI原生服务公司,变异性是信任的敌人。单靠模型评估远远不够。
如何起步
Emergence的Jake Saper和Sequoia的Julien Bek已经分别撰写了目前最出色的类别综述,分别聚焦于广阔的市场机遇以及种子轮后运营这类企业的陷阱。
但创始人该如何创办这样一家公司呢?我有幸与一些优秀的YC创始人合作,他们涉足医疗健康服务、法规合规、开发者关系(DevRel)等多个领域。传统的创业建议并不总能完美适配这些公司。因此,我专门为考虑AI原生服务的创始人录制了一期YC Startup School视频:
Y Combinator@ycombinator·5h未来十年最大的公司中,有些将不再是软件企业。它们会是服务型公司——比如保险公司、律师事务所、税务事务所——从零开始用AI完成大部分工作重新构建。
在本期Startup School中,YC访问合伙人Show more203730729K
我讲解了如何选择市场、组建团队、构建产品、服务客户、理解损益表,以及是否应该收购一家企业。这是一份为探索这一领域的创业者准备的入门指南。
剧透:收购一家公司几乎行不通。向PE角色扮演爱好者致歉。
变异性 vs. 信任
创办一家AI原生服务公司有许多陷阱,我在视频中详细介绍了其中很多。变异性是最需要避免的陷阱,却也是最不被理解的。
当然,运营杠杆是必需的。上一波“技术赋能服务”浪潮表明,在服务业务上贴一层技术并不会自动带来软件式的损益表或估值。别忘了过去十年那些痛苦的实验:Compass(房地产经纪人)、ScaleFactor(会计)、WeWork(联合办公……还有学前班)、Katerra(建筑!)等等。这些失败案例各有原因,但简而言之:业务无法规模化。幸灾乐祸不谈,教训不仅仅是毛利率重要,而是当服务型企业无法可靠地在大规模下保证质量时,它们就会失败。
WeGrow学前班。联合办公,但针对幼儿。它没有规模化。
WeGrow学前班。联合办公,但针对幼儿。它没有规模化。
AI或许最终会改变运营杠杆的等式,让公司在更大的劳动力可寻址市场(TAM)中实现收入增长快于销售成本。但LLM并不能消除运营中的变异性。事实上,变异性问题可能更严重。
变异性持续存在的反直觉原因在于:人类仍然在循环中。
AI原生服务并非纯粹的技术产品。它们是结合了LLM、内部工作流、客户输入、异常处理以及人在循环中决策的生产系统。人类审核公司内部产品的输出,解决边缘案例,管理客户特定请求,并判断交付物是否“看起来完成了”。这种判断正是这类企业存在的理由,也正是因为它是由人完成的,所以天生不一致。
一些质量管理和运筹学的研究在这里很有启发性。在《走出危机》(1982)中,W. Edwards Deming区分了制造过程中的“特殊原因变异”和“普通原因变异”。[3] 普通原因变异是预期的噪声:由于生产过程设计方式而产生的随机、微小的产品输出差异。但特殊原因变异在性质上不同:它是具体的故障或缺陷,导致客户对成品质量失去信任。创始人需要这种区分,因为并非所有错误都值得相同的回应。
例如,一家AI原生律所可能大部分时间都能提供完美的客户合同,但错过一个重要赔偿条款,导致季度末最大的一笔交易停滞。与此同时,一家AI原生会计事务所可能连续三个季度正确地为一家初创公司结账,但在年底审计前错误地分类了递延收入。这些问题不仅仅是抽象的“变异性”。这些错误会导致客户对AI原生服务失去信任,并最终流失。
如果“质量管理”不能让你像这位老兄一样兴奋,那这类初创公司不适合你。Deming摄于20世纪50年代,在日本讲学。
如果“质量管理”不能让你像这位老兄一样兴奋,那这类初创公司不适合你。Deming摄于20世纪50年代,在日本讲学。
减少特殊原因变异应该是AI原生服务公司的执念。
客户不在乎平均输出质量是否良好,也不在乎公司是否使用AI交付结果。他们在乎的是每一次输出是否正确,每次都要正确。信任是这种输出一致性的函数。反之,缺乏信任会导致流失。[4]
人类判断与流程评估
那么,AI原生服务公司如何降低变异性并维持信任呢?
LLM通过其非确定性输出确实带来了一些独特的挑战。所有常规策略和评估在这里都很重要。模型也会持续改进。
总的来说,变异性的罪魁祸首不会是模型,而是人。解决方案:AI原生服务公司需要“流程评估”。
像SWE-bench这样的模型评估能告诉你模型在受限编码任务上的表现。Harvey最近的法律智能体基准(Legal Agent Benchmark)扩展了这一概念,测试法律智能体能否处理复杂的客户事务并生成可审查的工作产品。但即使这些基准也只评判技术输出本身。
AI原生服务公司需要将这种方法进一步推进:对整个系统进行流程评估,包括循环中的人类。这些评估应衡量端到端的交付系统,包括客户接入、模型输出、交接、人工审核、异常处理、质量检查以及最终工作产品的客户反馈。它们应追踪审核者分歧、异常率、返工率、升级详情、客户报告的错误,以及某些人或交接环节是否产生了可重复的故障模式。一旦流程评估到位,公司就可以改进方法并降低变异性。公司还需要构建优秀的产品来吸引和留住最优秀的人机协同者。这同样绝非易事。这些员工是早期初创团队成员,而不是机器中的齿轮。
随着模型变得更好,而我们人类保持……嗯,不变,建立这些内部流程评估将成为这些企业的核心知识产权。甚至可以想象,会出现一家专门针对特定行业AI原生服务进行第三方基准测试的初创公司。
硅谷,欢迎来到严肃的六西格玛世界。
为了建立信任并降低变异性,创始人需要让端到端流程变得可量化并持续改进。赢家将衡量人类,而不仅仅是模型。
转载自 https://bearing.substack.com/
注释
-
正如我所写过的,在非办公室行业中还有许多未被开发的垂直AI市场,创始人可以在那里建立庞大的业务。并非所有领域都应该是AI服务。
-
我确实认为创始人应该熟悉关于吞吐量和周期时间的利特尔法则,以及关于利用率的金曼公式。对于后者,创始人会面临压力,需要最大化人机协同者的利用率来证明运营杠杆,但反直觉的是,系统中的松弛度是防止等待时间呈指数增长的缓冲。对于那些希望用营收增长给VC留下深刻印象的人来说,这些将是难学的教训。
-
Deming深受Walter Shewhart 1931年著作《制造产品品质的经济控制》的影响。我本可以在这里写更多,但这有风险,让本文变成《心灵捕手》酒吧场景里那个扎马尾的研究生。
-
衡量这些企业的流失率有点新颖。如果工作是项目制而非固定聘用,是否有相当于总金额留存率的指标?我们拭目以待。净金额留存率也很重要。
相似文章
@sgurumur: https://x.com/sgurumur/status/2057916874546090132
一篇评论文章,探讨了AI代码生成与生产级系统之间的差距,强调在复杂领域中,人类判断力和领域专业知识对于协调相互关联的决策循环仍然至关重要。
@djfarrelly: https://x.com/djfarrelly/status/2052779234234380479
本文主张,AI Agent 的开发应基于稳定的执行原语,而非会随新兴编排模式频繁更迭的僵化框架。文章强调,采用持久化步骤、持久状态、并行协调、事件驱动流程以及可观测性设计,可有效避免因最佳实践不断演进而付出的高昂重写代价。
@oneill_c: https://x.com/oneill_c/status/2054604986269802579
文章指出,严肃的AI公司正从封装通用模型转向使用专有交互数据训练自己的专业化模型,因为在分布内智能体任务中,专业化现在经常能匹配甚至超越前沿模型,从而推动更好的单位经济效益。
@ycombinator:在最近的一次批次演讲中,YC 合伙人 @t_blom 详细介绍了如何打造一家自我改进的 AI 原生公司。他讲…
YC 合伙人 @t_blom 发表了一场关于打造自我改进的 AI 原生公司的演讲,强调了递归 AI 循环并通过 AI 自动化减少员工人数。
你是否曾构建过完美运行的东西……却无人使用?
本文探讨了企业AI的最大瓶颈并非智能,而是信任,强调可观测性对于在生产环境中部署AI代理至关重要。