@charliewarren: https://x.com/charliewarren/status/2062204573549490516

X AI KOLs Following 2026/06/03 16:07 新闻

ai-native-services startups venture-capital trust operating-leverage variance founder-advice

摘要

文章讨论了构建AI原生服务公司所面临的挑战，强调降低工作质量方差对于建立信任和实现规模化至关重要，其重要性甚至超过运营杠杆本身。

https://t.co/4UlhpgjkLN

查看原文

查看缓存全文

缓存时间: 2026/06/03 21:55

信任AI原生服务公司

AI原生服务公司是那些重塑保险、律所、会计事务所等行业的初创企业，它们大量依赖大语言模型（LLM）来完成工作。这个赛道尚处早期阶段，但潜在回报是数万亿美元的劳动力支出——相比之下，过去的IT预算现在看来简直微不足道。[1] 和许多AI应用一样，这一领域也不乏炒作。

目前，外界对创始人的谨慎提醒主要集中在毛利率上。[2] 这些公司能否让收入增长快于销售成本（COGS），并压缩交付周期？“专注规模化”是我最常听到的口号。

在接触过这类新型初创公司后，我认为运营杠杆虽必要，但不足以实现产品市场匹配。

AI原生服务公司的成功与否，取决于它们能否降低“变异性”。我所说的变异性，是指交付给终端客户的工作产品质量存在显著的不一致性。低质量工作会侵蚀信任，导致客户流失。而对这类初创公司而言，造成最大变异性的往往不是LLM，而是人。

对于AI原生服务公司，变异性是信任的敌人。单靠模型评估远远不够。

如何起步

Emergence的Jake Saper和Sequoia的Julien Bek已经分别撰写了目前最出色的类别综述，分别聚焦于广阔的市场机遇以及种子轮后运营这类企业的陷阱。

但创始人该如何创办这样一家公司呢？我有幸与一些优秀的YC创始人合作，他们涉足医疗健康服务、法规合规、开发者关系（DevRel）等多个领域。传统的创业建议并不总能完美适配这些公司。因此，我专门为考虑AI原生服务的创始人录制了一期YC Startup School视频：

Y Combinator@ycombinator·5h未来十年最大的公司中，有些将不再是软件企业。它们会是服务型公司——比如保险公司、律师事务所、税务事务所——从零开始用AI完成大部分工作重新构建。

在本期Startup School中，YC访问合伙人Show more203730729K

我讲解了如何选择市场、组建团队、构建产品、服务客户、理解损益表，以及是否应该收购一家企业。这是一份为探索这一领域的创业者准备的入门指南。

剧透：收购一家公司几乎行不通。向PE角色扮演爱好者致歉。

变异性 vs. 信任

创办一家AI原生服务公司有许多陷阱，我在视频中详细介绍了其中很多。变异性是最需要避免的陷阱，却也是最不被理解的。

当然，运营杠杆是必需的。上一波“技术赋能服务”浪潮表明，在服务业务上贴一层技术并不会自动带来软件式的损益表或估值。别忘了过去十年那些痛苦的实验：Compass（房地产经纪人）、ScaleFactor（会计）、WeWork（联合办公……还有学前班）、Katerra（建筑！）等等。这些失败案例各有原因，但简而言之：业务无法规模化。幸灾乐祸不谈，教训不仅仅是毛利率重要，而是当服务型企业无法可靠地在大规模下保证质量时，它们就会失败。

WeGrow学前班。联合办公，但针对幼儿。它没有规模化。

AI或许最终会改变运营杠杆的等式，让公司在更大的劳动力可寻址市场（TAM）中实现收入增长快于销售成本。但LLM并不能消除运营中的变异性。事实上，变异性问题可能更严重。

变异性持续存在的反直觉原因在于：人类仍然在循环中。

AI原生服务并非纯粹的技术产品。它们是结合了LLM、内部工作流、客户输入、异常处理以及人在循环中决策的生产系统。人类审核公司内部产品的输出，解决边缘案例，管理客户特定请求，并判断交付物是否“看起来完成了”。这种判断正是这类企业存在的理由，也正是因为它是由人完成的，所以天生不一致。

一些质量管理和运筹学的研究在这里很有启发性。在《走出危机》（1982）中，W. Edwards Deming区分了制造过程中的“特殊原因变异”和“普通原因变异”。[3] 普通原因变异是预期的噪声：由于生产过程设计方式而产生的随机、微小的产品输出差异。但特殊原因变异在性质上不同：它是具体的故障或缺陷，导致客户对成品质量失去信任。创始人需要这种区分，因为并非所有错误都值得相同的回应。

例如，一家AI原生律所可能大部分时间都能提供完美的客户合同，但错过一个重要赔偿条款，导致季度末最大的一笔交易停滞。与此同时，一家AI原生会计事务所可能连续三个季度正确地为一家初创公司结账，但在年底审计前错误地分类了递延收入。这些问题不仅仅是抽象的“变异性”。这些错误会导致客户对AI原生服务失去信任，并最终流失。

如果“质量管理”不能让你像这位老兄一样兴奋，那这类初创公司不适合你。Deming摄于20世纪50年代，在日本讲学。

减少特殊原因变异应该是AI原生服务公司的执念。

客户不在乎平均输出质量是否良好，也不在乎公司是否使用AI交付结果。他们在乎的是每一次输出是否正确，每次都要正确。信任是这种输出一致性的函数。反之，缺乏信任会导致流失。[4]

人类判断与流程评估

那么，AI原生服务公司如何降低变异性并维持信任呢？

LLM通过其非确定性输出确实带来了一些独特的挑战。所有常规策略和评估在这里都很重要。模型也会持续改进。

总的来说，变异性的罪魁祸首不会是模型，而是人。解决方案：AI原生服务公司需要“流程评估”。

像SWE-bench这样的模型评估能告诉你模型在受限编码任务上的表现。Harvey最近的法律智能体基准（Legal Agent Benchmark）扩展了这一概念，测试法律智能体能否处理复杂的客户事务并生成可审查的工作产品。但即使这些基准也只评判技术输出本身。

AI原生服务公司需要将这种方法进一步推进：对整个系统进行流程评估，包括循环中的人类。这些评估应衡量端到端的交付系统，包括客户接入、模型输出、交接、人工审核、异常处理、质量检查以及最终工作产品的客户反馈。它们应追踪审核者分歧、异常率、返工率、升级详情、客户报告的错误，以及某些人或交接环节是否产生了可重复的故障模式。一旦流程评估到位，公司就可以改进方法并降低变异性。公司还需要构建优秀的产品来吸引和留住最优秀的人机协同者。这同样绝非易事。这些员工是早期初创团队成员，而不是机器中的齿轮。

随着模型变得更好，而我们人类保持……嗯，不变，建立这些内部流程评估将成为这些企业的核心知识产权。甚至可以想象，会出现一家专门针对特定行业AI原生服务进行第三方基准测试的初创公司。

硅谷，欢迎来到严肃的六西格玛世界。

为了建立信任并降低变异性，创始人需要让端到端流程变得可量化并持续改进。赢家将衡量人类，而不仅仅是模型。

转载自 https://bearing.substack.com/

注释

正如我所写过的，在非办公室行业中还有许多未被开发的垂直AI市场，创始人可以在那里建立庞大的业务。并非所有领域都应该是AI服务。
我确实认为创始人应该熟悉关于吞吐量和周期时间的利特尔法则，以及关于利用率的金曼公式。对于后者，创始人会面临压力，需要最大化人机协同者的利用率来证明运营杠杆，但反直觉的是，系统中的松弛度是防止等待时间呈指数增长的缓冲。对于那些希望用营收增长给VC留下深刻印象的人来说，这些将是难学的教训。
Deming深受Walter Shewhart 1931年著作《制造产品品质的经济控制》的影响。我本可以在这里写更多，但这有风险，让本文变成《心灵捕手》酒吧场景里那个扎马尾的研究生。
衡量这些企业的流失率有点新颖。如果工作是项目制而非固定聘用，是否有相当于总金额留存率的指标？我们拭目以待。净金额留存率也很重要。

@charliewarren: https://x.com/charliewarren/status/2062204573549490516

信任AI原生服务公司

如何起步

变异性 vs. 信任

人类判断与流程评估

相似文章

@sgurumur: https://x.com/sgurumur/status/2057916874546090132

@djfarrelly: https://x.com/djfarrelly/status/2052779234234380479

@oneill_c: https://x.com/oneill_c/status/2054604986269802579

@ycombinator：在最近的一次批次演讲中，YC 合伙人 @t_blom 详细介绍了如何打造一家自我改进的 AI 原生公司。他讲…

你是否曾构建过完美运行的东西……却无人使用？

提交意见反馈