@GokuMohandas: https://x.com/GokuMohandas/status/2066853420326384055
摘要
这篇技术指南解释了为什么组织应该基于开源AI模型构建自己的学习循环,而不是从前沿实验室租用智能,并引用了金融、机器人和生物技术领域的案例研究。
查看缓存全文
缓存时间: 2026/06/16 17:39
停止租用你的智能:构建自有学习循环的技术指南
@satyanadella 最近写道,AI制胜的关键已不再是挑选最佳模型,而是在模型之上构建学习循环,让你的数据和用量凝聚成别人无法租回给你的知识产权。本文将深入探讨为何要这样做,以及如何实现的蓝图,通过分析跨行业(金融、机器人、自动驾驶、电商、生物等)的公司如何做到这一点并获胜。
第一部分:论证
当行业争论是自建还是租用时,以下是当前实际发生的情况。
你正在构建谁的循环?
每次你使用前沿模型,你都向实验室传递了信号:提示词、追踪、边缘案例、工作流,模型随后学会更好地服务这些内容。这本身就帮助实验室构建了针对你的循环。这种泄露最深层的版本是前端部署工程师关系,即前沿实验室将工程师嵌入你的公司,基于你的专有流程进行构建,并收集所需的全部上下文,以构建强化学习环境来改进下一代模型。无论是轻度接触还是深度嵌入,你都在为自己机构知识的提取买单,而这些知识将变成你持续租用的模型。
短期来看,这对双方其实都很合理。实验室获得了提升能力曲线所需的数据。而你作为客户,获得了真正稀缺的实施经验和立竿见影的投资回报。
但从长期来看,只有两种结局。要么你被套牢,以溢价租回一个在你自身工作痕迹上训练出的模型。要么,如萨蒂亚所建议,你学会自己构建学习循环:你自己的评估、你自己的强化学习环境、你自己的后训练栈,在一个你能控制的开源基础之上。
“没有生态系统的前沿是不稳定的。真正的机会不在于挑选最佳模型,而在于在模型之上构建学习循环,让人力资本和代币资本复合增长。私有的强化学习环境应该让模型在组织内部的实际痕迹上不断变强。这个循环将成为公司新的知识产权。” —— 萨蒂亚·纳德拉,X平台发文
本文是该论点在工程上的体现。它面向那些认同这一方向并想知道具体需要什么的人。什么是学习循环,为什么它不仅仅是花哨的微调,难点在哪里,以及如何在你自己控制的基础设施上构建一个。那些已经在这样做的公司(Nubank、Physical Intelligence、Coinbase、Torc、Runway、Bedrock Robotics、Recursion、Reflection AI、Notion 等)遵循的正是我们接下来要讨论的模式。
开源只是障眼法吗?
在我们开始之前,有一个反论点值得认真对待,因为它是对本文立场最有力的反驳。Anthropic 的首席执行官达里奥·阿莫代伊最近这样说道:
“实际上我一直认为开源只是障眼法。当我看到一个新模型出现时,我不在乎它是开源还是闭源。这根本不重要。因为最终你必须在云端托管它。托管的人做推理。这些模型很大,推理很难。它不是免费的。你必须进行推理,并且必须有人让推理变快。” —— 达里奥·阿莫代伊,Anthropic(采访)
达里奥关于表面机制是对的。“开放权重”并非“开源”,因为托管开源模型并不免费,大模型确实难以服务,让它们变快是真正的工程。但他由此得出结论“因此就租用”只有在忽略以下三点时才成立:
1. 托管问题现在有清晰的解决方案。 一年前真正困难的能力——如多模态服务、基于扩散的图像和视频生成、混合专家模型的高效推理——现在在开源生态中已经解决。Ray、vLLM、HuggingFace、KubeRay、SGLang 等已经填补了这些空白。xAI 在 Ray 上运行 Grok Imagine。DigitalOcean 通过 Ray + vLLM 上的前缀感知路由将 P99 TTFT 降低了 70%。Tripadvisor 将批量 LLM 推理成本降低了 70-82%(相较于竞争性 API 产品)。苹果、宝马、Adobe 等都在使用。前沿实验室声称“只有我们能快速服务大模型”的说法肯定不再成立。
2. 开源模型现在确实很好。 Qwen、Llama、DeepSeek、Mistral、Gemma、Kimi 用于文本和代码。NVIDIA 的 Cosmos 系列用于动作条件世界模型和视频。还有更多特定行业的模型。
3. 托管只是入门门槛,扩展才是护城河。 “障眼法”的框架完全没有涉及这一点。一旦你能托管模型,你还可以通过在其基础上进行后训练(使用你自己的数据)来扩展它,将其包裹在一个奖励你成果的强化学习环境中,构建一个每次有人使用你的产品时都会复合增长的学习循环。
4. 运行时必须是开放的,而不仅仅是模型本身。 如果运行时本身是专有的(推理即服务和训练即服务类别,都建立在封闭编排之上),那么你就从模型锁定换成了运行时锁定。拥有自己智能的全部意义在于可移植性——你的权重是你的,你的数据是你的,你的代码无论在你选择的任何基础设施上都能不变地运行。这要求运行时是社区拥有的开源方案。之上的生产平台(内部、托管、虚拟机或 Kubernetes)可以适合你的团队。但运行时不行……
这个框架还遗漏了一点:租用在大规模下比拥有更昂贵,成本曲线最终会迫使迁移。我不仅在“企业级规模”中看到这一点,任何有实际用量的团队在几个月内就可能遇到。
| 维度 | 租用 | 拥有 |
|---|---|---|
| 成本 | 线性增长,无上限 | 前期高,边际成本平 |
| 性能 | 为供应商的平均客户调优 | 为你的流量调优:TTFT、吞吐量、KV缓存复用、提示缓存、批处理形状、推测解码策略 |
| 质量 | 前沿通用,每个人都是同一个模型,有时会莫名其妙出错 | 通过基于你痕迹的后训练和强化学习,为你的任务专门化 |
借助于正确的蓝图(以及许多公司已经做到的案例),托管可以简化。一旦你拥有了它,你就得到了租用堆栈无法给予的东西:让模型成为你自己的能力。
第二部分:学习循环到底是什么
学习循环的解剖
“学习循环”是一种特定的架构,嵌入在反馈回路中。
(此处应有图,但原文无图)
每个框都是一个工作负载,共同构成了萨蒂亚所说的“爬坡机器”,每次有人使用你的产品时都复合增长。大多数公司还没有它的原因不在于任何一个单独的组件难,而在于将它们缝合在一起形成一个生产系统(而不是笔记本)需要一个运行时,能够移动数据、调度异构GPU工作、托管服务、训练,并在所有组件之间同步权重。
在继续之前,我想快速介绍一下强化学习环境,它是图中最容易误解的框。
强化学习环境到底是什么
以及为什么它不仅仅是微调。
在“拥有自己的智能”讨论中,最大的混淆来源是将微调与强化学习混为一谈。它们不是一回事,而区别正是拥有自己循环的全部意义所在。
强化学习环境 是一个可编程的业务模拟器。它有四个部分:
-
状态。 模型正在观察的情况。这可以是客户支持工单、代码仓库、金融交易、你的机器人的摄像头画面、医疗记录等。
-
动作空间。 模型可以做什么。比如写回复、调用工具、编辑文件、删除生产数据库备份、进行交易、发送电机命令、安排实验室测试等。
-
转移。 动作之后世界如何更新。这可以是真实的工具执行、沙盒环境或模拟器。
-
奖励。 对动作进行评分,评价其对实际业务成果的影响。工单解决了吗?测试通过了吗?交易赚钱了吗?机器人抓住了卷饼吗?
# RL 环境
class Environment:
def reset(self) -> State:
...
def step(self, state: State, action: Action) -> tuple[State, Reward]:
next_state = self._transition(state, action) # 世界做出反应
reward = self._score(state, action, next_state) # 程序化评分,非人工标注
return next_state, reward
模型基本上会运行这个循环数百万次(这里也生成了大量合成数据)。强化学习算法(PPO、GRPO、DAPO、基于rollout的DPO等)会更新策略权重,使高奖励动作随时间变得更可能。
现在将其与监督式微调进行比较。LoRA微调在收集的数据上基本上就是模仿,因为你给模型一个静态数据集(输入,期望输出)对,模型学习复制标签。当你的欺诈模式改变、产品发布或工具API演变时,模型就会过时,直到你重新标注并重新训练。这种漂移非常常见,需要不断重新标注(昂贵)。
但使用强化学习,模型不学习模仿示例,而是学习实现成果。每一次新的rollout、每一次退单、每一次通过的测试、每一次成功的智能体会话都会自动生成新的训练信号,这个循环不断复合增长(一次性 vs 循环)。
| 维度 | LoRA微调 | 强化学习环境 |
|---|---|---|
| 教授内容 | 模仿标签 | 实现成果 |
| 信号来源 | 标签(昂贵、缓慢、静态快照) | 程序化奖励(廉价、持续、动态) |
| 随时间改进? | 否,训练后就冻结 | 是,每次rollout都是新训练数据 |
| 处理新情况? | 仅当与训练数据相似时 | 是,模型会探索并评分 |
| 多步骤/工具使用? | 困难,需要标注轨迹 | 原生支持,循环是训练的单位 |
| 优化目标 | 词元级别的可能性 | 你定义的业务成果 |
同一蓝图,遍及各行业
学习循环图(产品→痕迹→评估→强化学习环境→后训练→服务→回到产品)是跨行业通用的,不同行业之间改变的只是每个框里的内容:数据模态、动作空间和奖励函数。除此之外,几乎一样。
| 阶段 | 金融 | 代码智能体 | 物理AI | 生命科学 | 客户运营 |
|---|---|---|---|---|---|
| 产品 | 推荐系统、信用评分、欺诈检测 | IDE、自主代码审查 | 机器人车队、自动驾驶 | 研究助手、实验室自动化 | 支持智能体、运营助手 |
| 痕迹 | 交易、应用事件、退单 | 仓库编辑、测试运行、PR审查 | 传感器日志、视频、动作序列、模拟rollout | 实验结果、论文查询、实验室读数 | 工单、转录、解决方案 |
| RL环境状态 | 客户状态+交易历史 | 仓库快照 | 摄像头画面+本体感觉 | 假设+先前实验 | 对话状态+CRM记录 |
| 动作空间 | 决策(批准/拒绝/路由) | 编辑/工具调用/运行测试 | 电机命令/运动计划 | 运行分析/查询数据库/提出分子 | 回复/调用工具/升级 |
| 转移 | 真实下游效果(退单、留存) | 沙盒测试执行 | 模拟器或真实世界部署 | 湿实验或计算机模拟 | 实时或影子对话 |
| 奖励 | 实际损益、留存、欺诈抓获 | 测试通过、代码规范、token用量 | 任务成功、模拟得分、模拟到真实迁移 | 命中率、分析结果、引用影响 | 解决率、客户满意度、节省时间 |
| 后训练 | 在交易骨干上按任务进行LoRA | 基于沙盒测试的GRPO强化学习 | VLA微调+闭环模拟飞轮 | 基于实验结果的强化学习 | 基于标注和影子痕迹的DPO/GRPO |
| 服务 | 在线评分+批量刷新 | 多副本策略+自动扩展 | 被模拟和真实机器人查询的策略服务器 | 使用工具的智能体端点 | 带流量路由的对话端点 |
第三部分:如何实现
拥有自己的循环有两个独立的轴,混淆它们正是这个话题容易令人困惑的原因。
能力是指你构建了什么。模型有多少是真正属于你的:借用词嵌入→然后你自己的词嵌入→然后微调→然后强化学习环境→然后持续循环。
托管是指它在哪里运行。权重实际在哪里执行:租用的API→然后自托管开源→然后两者混合并接在一个网关后面。
这两个轴完全正交,因为你可以在能力阶梯上攀升的同时仍然租用托管,也可以自托管一个几乎没有定制的模型。我合作过的大多数团队会随着时间在这两个轴上移动,但很少同步。我们将从运行位置开始,以及为什么所有这些在生产规模下变得困难,然后按照能力阶梯逐步攀升。
托管迁移:从租用到拥有
“构建自己的学习循环”听起来像是在前沿API租用与建立内部基础模型团队之间的二元选择。但实际上,这通常分三个阶段发生。
我反复看到以下框架(跨行业通用),但你可以从Coinbase和宝马的案例中看到他们具体的迁移路径。
阶段一:租用前沿API
通过一个轻量级AI网关(处理认证、监控和护栏)路由到前沿API(OpenAI、Anthropic、Google等)。上游一个兼容OpenAI的接口,下游多个提供商,开始验证新功能和流程。
阶段二:自托管开源模型
然后,对于租赁成本或隐私问题不容忽视的模态和用例,你可以建立自托管推理服务。常见的开源层是 Ray + vLLM 用于推理,KubeRay 用于编排,HuggingFace 作为模型来源,你可以使用LoRA对高负载用例进行微调。
所有这些都是同一个兼容OpenAI的表面接口,网关已经可以与之通信,但现在由运行在你内部的OpenAI模型支持:
# 阶段二:在同一个兼容OpenAI的API后面自托管一个开源模型
# 网关已经在与之通信。
from ray import serve
from ray.serve.llm import LLMConfig, build_openai_app
llm_config = LLMConfig(
model_loading_config=dict(
model_id="Qwen/Qwen3-32B-Instruct",
# 在你的痕迹上训练的可热切换的LoRA适配器,按请求切换
lora_config=dict(max_num_adapters=8),
),
accelerator_type="H100",
deployment_config=dict(
num_replicas="auto",
max_ongoing_requests=64,
),
engine_kwargs=dict(tensor_parallel_size=4),
)
# 网关现在可以像路由到Bedrock或Azure一样路由到这里。
serve.run(build_openai_app({"llm_configs": [llm_config]}), route_prefix="/v1")
开源解锁
感谢开源社区,现在有开源模型和服务生态覆盖了你产品所需的所有模态。当然,文本和代码已经有生产级的开源基础(Llama、Qwen、DeepSeek、Mistral、Gemma、Kimi)。更难的是那些曾被闭源API主导的模态(Sora用于视频、GPT图像、音频生成、原生多模态)。但现在我们有了NVIDIA的Cosmos系列用于动作条件世界模型和视频,强大的开放权重图像生成(Flux),开放语音模型(Whisper),大量的VLM,甚至多模态服务用于扩散模型(vLLM-omni)。
所以现在你意识到托管是真正的工作。你开始承担GPU成本,搭建超越一个API密钥的服务栈。但团队之所以仍然这样做,是因为下一阶段(以及其上的循环)只能从这里到达。
阶段三:统一网关
最终阶段(目前)是混合托管。你有一个网关,将部分端点路由到前沿API(低流量、仅前沿能力)
相似文章
@rhythmrg: https://x.com/rhythmrg/status/2066561780495896785
文章认为,企业应该对自定义AI模型进行后训练,用于关键任务、高容量的用例,以实现差异化、节省成本并对权衡进行控制,而不是仅仅依赖通用前沿模型。
@TheAhmadOsman: 这就是原因:
@TheAhmadOsman 的一条推文倡导开源人工智能,认为人工智能必须保持可及性和社区治理,以避免依赖封闭的企业系统。
微软萨提亚·纳德拉表示,未来在于学习循环。但谁真正拥有它?
萨提亚·纳德拉认为,公司必须拥有自己的学习循环,而不仅仅是AI模型。本文警告说,依赖API提供商可能有失去控制的风险,并倡导构建允许在不丢失机构知识的情况下切换模型的系统。
@TheAhmadOsman:本地AI是未来。学习如何运行开源模型(推理),如何系统地评估它们(评估),……
@TheAhmadOsman 的一条推文强调本地AI是未来,并推荐学习诸如运行开源模型、进行评估以及通过微调定制模型等技能。
@oneill_c: https://x.com/oneill_c/status/2054604986269802579
文章指出,严肃的AI公司正从封装通用模型转向使用专有交互数据训练自己的专业化模型,因为在分布内智能体任务中,专业化现在经常能匹配甚至超越前沿模型,从而推动更好的单位经济效益。