Moats Need Models(6分钟阅读)

TLDR AI 新闻

摘要

本文认为,AI的可防御性来自于拥有完整的反馈循环——基于专有数据进行后训练的自定义模型,针对特定工作流进行调整,并由用户定义的标准进行评估——而不是从可能随时更改条款的供应商那里租用前沿API。它强调模型定制是实现差异化和利润控制的关键。

模型、框架、工作流和评估循环不再是独立的技术栈组件,而是相互叠加的共同设计面。可防御性来自于拥有完整的反馈循环,而不是租用那些可能被供应商限制、重新定价或收回的前沿能力。
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:44

模型、工具链、工作流程和评估循环不再是独立的堆栈组件,而是协同设计的表面,共同叠加形成优势。防御性来自于掌控完整的反馈循环,而不是租用那些可能被供应商随时限制、重新定价或收回的前沿能力。


护城河需要模型

过去两年的大部分时间里,模型被视为一种商品化输入。你选择一个前沿API,用巧妙的外壳包裹它,然后在之上构建产品。模型是你租用的依赖,而产品是你围绕它建立的一切。对于许多用例来说,这曾经是正确的选择。

但在@appliedcompute为领先企业训练、服务和改进定制模型的一年之后,我们看到模型、接口和应用层已不再是堆栈中独立的部分。工具链塑造了模型看到的任务。验证器定义了什么是好的。应用生成模型学习所需的数据。每一个组件都在改变模型,而模型又反过来改变每一个组件。

这带来了新的战略问题。如果你想站在前沿,你需要模型、接口、工作流程、数据和评估循环协同工作。但如果这个循环的某些部分依赖于单一的外部模型供应商,那么你就是在租用的能力上构建,这种能力可能被供应商随时限制、重新定价或收回。Fable最近的发布就是对这些考量一个不微妙的提醒。

防御性不再仅仅来自模型本身,也不再来自其上的包装。它来自于拥有它们之间的反馈循环:一个定制的模型,在你的数据上进行后训练,为你的工作流程调优,按你的标准进行评估,并通过实际使用不断改进。

AI领域的赢家将是那些产品和定制模型相互叠加,直到变得不可分割的公司。模型-工具链协同设计就是护城河,而它只有在你拥有自己的智能时才存在。

模型定制的必要性

我们最常听到的挫败感大概是这样的:一个团队采用了一个强大的通用模型,在一周内构建了一个令人印象深刻的演示,然后在最后一公里停滞不前。模型在抽象层面上很出色,但具体细节上却不可靠。它不了解他们的业务实际如何运作,不知道他们的用户做什么,也不清楚他们最困难的工作流程在哪里断裂。同样的问题也存在竞争版本。一个通用模型,按定义,每个人都可以使用,背后是相同的API和相同的权重。当智能是相同的且任何人都可以租用时,它本身就失去了差异化来源。

在挫败感背后是一个更结构性的限制。现成的模型只给你固定的成本、延迟和性能之间的权衡。更大的模型提高质量但成本更高、运行更慢。更小的模型更快更便宜,但通常会牺牲质量。提示和检索帮助你选择可用的选项,但它们无法创造更好的选项。在你自己的数据上进行训练可以做到这一点。它让你定义自己在前沿的位置,灵活地调整权衡,以符合你实际工作所需的成本、速度和质量。这是围绕竞争对手没有的资产进行专业化,包括你的数据、你的工具和你对“好”的定义。

这一点在我们与之交谈的AI原生公司中表现得最为尖锐,因为对他们来说,相当一部分利润空间来自模型。随着使用量的增长,推理成为主导成本,每次调用都使用更大的前沿模型会逐渐侵蚀毛利率。同时,实验室正在进入应用层,这意味着一些团队越来越与其依赖的供应商竞争。

这种动态使团队对共享的数据越来越谨慎。几乎在每一次对话中,公司都告诉我们,他们不放心将最专有的数据,或揭示产品实际工作方式的生产痕迹,交给前沿实验室。随着一些最近发布的产品不提供零数据保留政策,这些考量被进一步放大。

定制模型能带来什么

在我们参与的项目中,回报往往分为四类。

  • 以生产经济性实现前沿质量。当Cognition在Windsurf中构建实时错误检测时,唯一达到其质量标准的现成模型太慢、太贵,无法在每次按键时运行。曲线上没有合适的点符合这个约束。一个专门的模型以大约10倍于前沿替代方案的速度提供了前沿级别的检测。教训是,专业化让你保留能力,但减少延迟和成本。

  • 当你的数据成为优势时,质量超越通用模型。通过针对自己专家定义的正确菜单进行训练,DoorDash将关键菜单错误减少了30%(相对于基线)。Mercor发现,一小组专家标注的任务足以训练一个小型模型在狭窄任务上达到最先进的质量,而成本仅为一小部分。

  • 新的产品表面。降低接近前沿智能的成本和延迟,使得整个类别的工作变得可行。那些使用前沿API对每份文档、每个客户或每条记录运行都不经济的任务,一旦专门模型以更低价格完成相同工作,就变得实用。

  • 你自己拥有的复合投资。你的用户生成的每一个接受、重试、编辑和覆盖都是产品实际表现的反馈。反馈回训练中,这些信号成为下一个版本模型的输入。系统不再冻结在发布时的状态,而是随着使用不断改进。而且因为模型是你的,你决定训练什么、部署什么以及在哪里运行。竞争对手无法通过签署相同的供应商合同来复制这一点。

如果定制值得,为什么不是每个人都训练?

这是我们在几乎每次对话中都会遇到的问题。诚实的答案是,做好训练很难,而难点并非人们预期的那样。任何AI系统中都有三个杠杆:工具链、上下文和模型的权重。大多数团队处理前两个,因为它们容易获得且不需要所有权。移动第三个杠杆——实际训练模型——是持久优势所在,也是两个真正障碍出现的地方。

科学

第一个障碍是基础设施。以我们描述的方式训练模型是一个系统问题。你需要一个能够从小型扩展到前沿规模的训练引擎、沙盒环境来运行你的工具、一个评分管道、一个保持数千次部署进行的调度器、可观测性来捕捉模型何时悄悄玩弄其奖励,以及能够将结果投入生产的服务。长时间范围、使用工具的智能体让这变得更难。部署在不同时间完成,一个天真的设置会让昂贵的GPU闲置。要实现真正的利用率,通常需要完全异步的训练,其中采样、评分和学习并行运行。这需要数月的平台工作,才能获得第一个有用的结果。

艺术

第二个障碍是评估,而这几乎被所有人低估。一个模型的质量只取决于你训练它所用的信号,而将模糊的“好”的感觉转化为校准过的、自洽的奖励是困难的。在实践中,客户在第一天交给我们的数据很少是模型可以学习的形状,通常只有在我们与他们的领域专家共同构建评估后,双方才看到数据有多偏离。一个稍微校准不当的评分器会有效地教模型错误的东西,而且通常直到模型学会走捷径你才会注意到。评估,而不是数据量,才是真正的规范。把它做好需要经验和迭代。

这两个挑战很大程度上解释了为什么@appliedcompute存在,以及为什么我们作为前沿部署合作伙伴工作。我们运行底层的基础设施,以便客户的团队可以专注于三件事:环境、评分器和目标。我们与他们的工程师合作,在他们的专家身边构建评估和奖励,这些地方才是真正的判断所在,并且我们承担训练、服务和系统负载。客户带来了对他们领域的深入了解以及对“卓越”在此领域中的清晰认识。模型、数据和知识产权仍然是他们的。

企业AI的未来

定制模型所有权不再是假设性的。律师事务所、资产管理公司和AI原生的公司已经为定制模型投入了大量预算。随着开放权重模型的改进,从强大的基础模型开始,并针对特定工作流程进行后训练已成为一种实用策略。

这并不意味着通用模型会消失,也不意味着每家公司都应该为所有事情训练模型。大多数AI系统仍然会严重依赖工具链、上下文、工具和检索,当后训练不是最有效的途径时,我们也会帮助客户处理这些方面。

但对于定义了你产品、利润和护城河的那少数几个工作流程,值得问一问:最重要的组件是否应该也是每个竞争对手都能租用的东西?

对于这些工作流程,训练自己的模型是将你已经做的工作转化为自己拥有的资产的最直接方式。它可以占据现成模型无法提供的成本-延迟-性能曲线上的一点,可以在定义你业务的问题上超越通用模型,它会随着你的团队使用而改进,而且竞争对手无法从货架上买到它。租用一个通用模型给你的是和其他人一样的智能。训练你自己的模型,并围绕它塑造工具链,才是你构建真正且持久属于自己的东西的方式。

停止租用你的智能。拥有它。

相似文章

@oneill_c: https://x.com/oneill_c/status/2054604986269802579

X AI KOLs Timeline

文章指出,严肃的AI公司正从封装通用模型转向使用专有交互数据训练自己的专业化模型,因为在分布内智能体任务中,专业化现在经常能匹配甚至超越前沿模型,从而推动更好的单位经济效益。