@GokuMohandas: https://x.com/GokuMohandas/status/2066853420326384055

X AI KOLs Following 2026/06/16 12:00 新闻

learning-loop ai-strategy open-source fine-tuning reinforcement-learning frontier-models

摘要

这篇技术指南解释了为什么组织应该基于开源AI模型构建自己的学习循环，而不是从前沿实验室租用智能，并引用了金融、机器人和生物技术领域的案例研究。

https://t.co/X7Wtupv48Z

查看原文

查看缓存全文

缓存时间: 2026/06/16 17:39

停止租用你的智能：构建自有学习循环的技术指南

@satyanadella 最近写道，AI制胜的关键已不再是挑选最佳模型，而是在模型之上构建学习循环，让你的数据和用量凝聚成别人无法租回给你的知识产权。本文将深入探讨为何要这样做，以及如何实现的蓝图，通过分析跨行业（金融、机器人、自动驾驶、电商、生物等）的公司如何做到这一点并获胜。

第一部分：论证

当行业争论是自建还是租用时，以下是当前实际发生的情况。

你正在构建谁的循环？

每次你使用前沿模型，你都向实验室传递了信号：提示词、追踪、边缘案例、工作流，模型随后学会更好地服务这些内容。这本身就帮助实验室构建了针对你的循环。这种泄露最深层的版本是前端部署工程师关系，即前沿实验室将工程师嵌入你的公司，基于你的专有流程进行构建，并收集所需的全部上下文，以构建强化学习环境来改进下一代模型。无论是轻度接触还是深度嵌入，你都在为自己机构知识的提取买单，而这些知识将变成你持续租用的模型。

短期来看，这对双方其实都很合理。实验室获得了提升能力曲线所需的数据。而你作为客户，获得了真正稀缺的实施经验和立竿见影的投资回报。

但从长期来看，只有两种结局。要么你被套牢，以溢价租回一个在你自身工作痕迹上训练出的模型。要么，如萨蒂亚所建议，你学会自己构建学习循环：你自己的评估、你自己的强化学习环境、你自己的后训练栈，在一个你能控制的开源基础之上。

“没有生态系统的前沿是不稳定的。真正的机会不在于挑选最佳模型，而在于在模型之上构建学习循环，让人力资本和代币资本复合增长。私有的强化学习环境应该让模型在组织内部的实际痕迹上不断变强。这个循环将成为公司新的知识产权。” —— 萨蒂亚·纳德拉，X平台发文

本文是该论点在工程上的体现。它面向那些认同这一方向并想知道具体需要什么的人。什么是学习循环，为什么它不仅仅是花哨的微调，难点在哪里，以及如何在你自己控制的基础设施上构建一个。那些已经在这样做的公司（Nubank、Physical Intelligence、Coinbase、Torc、Runway、Bedrock Robotics、Recursion、Reflection AI、Notion 等）遵循的正是我们接下来要讨论的模式。

开源只是障眼法吗？

在我们开始之前，有一个反论点值得认真对待，因为它是对本文立场最有力的反驳。Anthropic 的首席执行官达里奥·阿莫代伊最近这样说道：

“实际上我一直认为开源只是障眼法。当我看到一个新模型出现时，我不在乎它是开源还是闭源。这根本不重要。因为最终你必须在云端托管它。托管的人做推理。这些模型很大，推理很难。它不是免费的。你必须进行推理，并且必须有人让推理变快。” —— 达里奥·阿莫代伊，Anthropic（采访）

达里奥关于表面机制是对的。“开放权重”并非“开源”，因为托管开源模型并不免费，大模型确实难以服务，让它们变快是真正的工程。但他由此得出结论“因此就租用”只有在忽略以下三点时才成立：

1. 托管问题现在有清晰的解决方案。 一年前真正困难的能力——如多模态服务、基于扩散的图像和视频生成、混合专家模型的高效推理——现在在开源生态中已经解决。Ray、vLLM、HuggingFace、KubeRay、SGLang 等已经填补了这些空白。xAI 在 Ray 上运行 Grok Imagine。DigitalOcean 通过 Ray + vLLM 上的前缀感知路由将 P99 TTFT 降低了 70%。Tripadvisor 将批量 LLM 推理成本降低了 70-82%（相较于竞争性 API 产品）。苹果、宝马、Adobe 等都在使用。前沿实验室声称“只有我们能快速服务大模型”的说法肯定不再成立。

2. 开源模型现在确实很好。 Qwen、Llama、DeepSeek、Mistral、Gemma、Kimi 用于文本和代码。NVIDIA 的 Cosmos 系列用于动作条件世界模型和视频。还有更多特定行业的模型。

3. 托管只是入门门槛，扩展才是护城河。 “障眼法”的框架完全没有涉及这一点。一旦你能托管模型，你还可以通过在其基础上进行后训练（使用你自己的数据）来扩展它，将其包裹在一个奖励你成果的强化学习环境中，构建一个每次有人使用你的产品时都会复合增长的学习循环。

4. 运行时必须是开放的，而不仅仅是模型本身。 如果运行时本身是专有的（推理即服务和训练即服务类别，都建立在封闭编排之上），那么你就从模型锁定换成了运行时锁定。拥有自己智能的全部意义在于可移植性——你的权重是你的，你的数据是你的，你的代码无论在你选择的任何基础设施上都能不变地运行。这要求运行时是社区拥有的开源方案。之上的生产平台（内部、托管、虚拟机或 Kubernetes）可以适合你的团队。但运行时不行……

这个框架还遗漏了一点：租用在大规模下比拥有更昂贵，成本曲线最终会迫使迁移。我不仅在“企业级规模”中看到这一点，任何有实际用量的团队在几个月内就可能遇到。

维度	租用	拥有
成本	线性增长，无上限	前期高，边际成本平
性能	为供应商的平均客户调优	为你的流量调优：TTFT、吞吐量、KV缓存复用、提示缓存、批处理形状、推测解码策略
质量	前沿通用，每个人都是同一个模型，有时会莫名其妙出错	通过基于你痕迹的后训练和强化学习，为你的任务专门化

借助于正确的蓝图（以及许多公司已经做到的案例），托管可以简化。一旦你拥有了它，你就得到了租用堆栈无法给予的东西：让模型成为你自己的能力。

第二部分：学习循环到底是什么

学习循环的解剖

“学习循环”是一种特定的架构，嵌入在反馈回路中。

（此处应有图，但原文无图）

每个框都是一个工作负载，共同构成了萨蒂亚所说的“爬坡机器”，每次有人使用你的产品时都复合增长。大多数公司还没有它的原因不在于任何一个单独的组件难，而在于将它们缝合在一起形成一个生产系统（而不是笔记本）需要一个运行时，能够移动数据、调度异构GPU工作、托管服务、训练，并在所有组件之间同步权重。

在继续之前，我想快速介绍一下强化学习环境，它是图中最容易误解的框。

强化学习环境到底是什么

以及为什么它不仅仅是微调。

在“拥有自己的智能”讨论中，最大的混淆来源是将微调与强化学习混为一谈。它们不是一回事，而区别正是拥有自己循环的全部意义所在。

强化学习环境 是一个可编程的业务模拟器。它有四个部分：

状态。 模型正在观察的情况。这可以是客户支持工单、代码仓库、金融交易、你的机器人的摄像头画面、医疗记录等。
动作空间。 模型可以做什么。比如写回复、调用工具、编辑文件、删除生产数据库备份、进行交易、发送电机命令、安排实验室测试等。
转移。 动作之后世界如何更新。这可以是真实的工具执行、沙盒环境或模拟器。
奖励。 对动作进行评分，评价其对实际业务成果的影响。工单解决了吗？测试通过了吗？交易赚钱了吗？机器人抓住了卷饼吗？

# RL 环境
class Environment:
    def reset(self) -> State:
        ...
    
    def step(self, state: State, action: Action) -> tuple[State, Reward]:
        next_state = self._transition(state, action)   # 世界做出反应
        reward = self._score(state, action, next_state) # 程序化评分，非人工标注
        return next_state, reward

模型基本上会运行这个循环数百万次（这里也生成了大量合成数据）。强化学习算法（PPO、GRPO、DAPO、基于rollout的DPO等）会更新策略权重，使高奖励动作随时间变得更可能。

现在将其与监督式微调进行比较。LoRA微调在收集的数据上基本上就是模仿，因为你给模型一个静态数据集（输入，期望输出）对，模型学习复制标签。当你的欺诈模式改变、产品发布或工具API演变时，模型就会过时，直到你重新标注并重新训练。这种漂移非常常见，需要不断重新标注（昂贵）。

但使用强化学习，模型不学习模仿示例，而是学习实现成果。每一次新的rollout、每一次退单、每一次通过的测试、每一次成功的智能体会话都会自动生成新的训练信号，这个循环不断复合增长（一次性 vs 循环）。

维度	LoRA微调	强化学习环境
教授内容	模仿标签	实现成果
信号来源	标签（昂贵、缓慢、静态快照）	程序化奖励（廉价、持续、动态）
随时间改进？	否，训练后就冻结	是，每次rollout都是新训练数据
处理新情况？	仅当与训练数据相似时	是，模型会探索并评分
多步骤/工具使用？	困难，需要标注轨迹	原生支持，循环是训练的单位
优化目标	词元级别的可能性	你定义的业务成果

同一蓝图，遍及各行业

学习循环图（产品→痕迹→评估→强化学习环境→后训练→服务→回到产品）是跨行业通用的，不同行业之间改变的只是每个框里的内容：数据模态、动作空间和奖励函数。除此之外，几乎一样。

阶段	金融	代码智能体	物理AI	生命科学	客户运营
产品	推荐系统、信用评分、欺诈检测	IDE、自主代码审查	机器人车队、自动驾驶	研究助手、实验室自动化	支持智能体、运营助手
痕迹	交易、应用事件、退单	仓库编辑、测试运行、PR审查	传感器日志、视频、动作序列、模拟rollout	实验结果、论文查询、实验室读数	工单、转录、解决方案
RL环境状态	客户状态+交易历史	仓库快照	摄像头画面+本体感觉	假设+先前实验	对话状态+CRM记录
动作空间	决策（批准/拒绝/路由）	编辑/工具调用/运行测试	电机命令/运动计划	运行分析/查询数据库/提出分子	回复/调用工具/升级
转移	真实下游效果（退单、留存）	沙盒测试执行	模拟器或真实世界部署	湿实验或计算机模拟	实时或影子对话
奖励	实际损益、留存、欺诈抓获	测试通过、代码规范、token用量	任务成功、模拟得分、模拟到真实迁移	命中率、分析结果、引用影响	解决率、客户满意度、节省时间
后训练	在交易骨干上按任务进行LoRA	基于沙盒测试的GRPO强化学习	VLA微调+闭环模拟飞轮	基于实验结果的强化学习	基于标注和影子痕迹的DPO/GRPO
服务	在线评分+批量刷新	多副本策略+自动扩展	被模拟和真实机器人查询的策略服务器	使用工具的智能体端点	带流量路由的对话端点

第三部分：如何实现

拥有自己的循环有两个独立的轴，混淆它们正是这个话题容易令人困惑的原因。

能力是指你构建了什么。模型有多少是真正属于你的：借用词嵌入→然后你自己的词嵌入→然后微调→然后强化学习环境→然后持续循环。

托管是指它在哪里运行。权重实际在哪里执行：租用的API→然后自托管开源→然后两者混合并接在一个网关后面。

这两个轴完全正交，因为你可以在能力阶梯上攀升的同时仍然租用托管，也可以自托管一个几乎没有定制的模型。我合作过的大多数团队会随着时间在这两个轴上移动，但很少同步。我们将从运行位置开始，以及为什么所有这些在生产规模下变得困难，然后按照能力阶梯逐步攀升。

托管迁移：从租用到拥有

“构建自己的学习循环”听起来像是在前沿API租用与建立内部基础模型团队之间的二元选择。但实际上，这通常分三个阶段发生。

我反复看到以下框架（跨行业通用），但你可以从Coinbase和宝马的案例中看到他们具体的迁移路径。

阶段一：租用前沿API

通过一个轻量级AI网关（处理认证、监控和护栏）路由到前沿API（OpenAI、Anthropic、Google等）。上游一个兼容OpenAI的接口，下游多个提供商，开始验证新功能和流程。

阶段二：自托管开源模型

然后，对于租赁成本或隐私问题不容忽视的模态和用例，你可以建立自托管推理服务。常见的开源层是 Ray + vLLM 用于推理，KubeRay 用于编排，HuggingFace 作为模型来源，你可以使用LoRA对高负载用例进行微调。

所有这些都是同一个兼容OpenAI的表面接口，网关已经可以与之通信，但现在由运行在你内部的OpenAI模型支持：

# 阶段二：在同一个兼容OpenAI的API后面自托管一个开源模型
# 网关已经在与之通信。
from ray import serve
from ray.serve.llm import LLMConfig, build_openai_app

llm_config = LLMConfig(
    model_loading_config=dict(
        model_id="Qwen/Qwen3-32B-Instruct",
        # 在你的痕迹上训练的可热切换的LoRA适配器，按请求切换
        lora_config=dict(max_num_adapters=8),
    ),
    accelerator_type="H100",
    deployment_config=dict(
        num_replicas="auto",
        max_ongoing_requests=64,
    ),
    engine_kwargs=dict(tensor_parallel_size=4),
)

# 网关现在可以像路由到Bedrock或Azure一样路由到这里。
serve.run(build_openai_app({"llm_configs": [llm_config]}), route_prefix="/v1")

开源解锁

感谢开源社区，现在有开源模型和服务生态覆盖了你产品所需的所有模态。当然，文本和代码已经有生产级的开源基础（Llama、Qwen、DeepSeek、Mistral、Gemma、Kimi）。更难的是那些曾被闭源API主导的模态（Sora用于视频、GPT图像、音频生成、原生多模态）。但现在我们有了NVIDIA的Cosmos系列用于动作条件世界模型和视频，强大的开放权重图像生成（Flux），开放语音模型（Whisper），大量的VLM，甚至多模态服务用于扩散模型（vLLM-omni）。

所以现在你意识到托管是真正的工作。你开始承担GPU成本，搭建超越一个API密钥的服务栈。但团队之所以仍然这样做，是因为下一阶段（以及其上的循环）只能从这里到达。

阶段三：统一网关

最终阶段（目前）是混合托管。你有一个网关，将部分端点路由到前沿API（低流量、仅前沿能力）

@GokuMohandas: https://x.com/GokuMohandas/status/2066853420326384055

停止租用你的智能：构建自有学习循环的技术指南

第一部分：论证

你正在构建谁的循环？

开源只是障眼法吗？

第二部分：学习循环到底是什么

学习循环的解剖

强化学习环境到底是什么

同一蓝图，遍及各行业

第三部分：如何实现

托管迁移：从租用到拥有

相似文章

@rhythmrg: https://x.com/rhythmrg/status/2066561780495896785

@TheAhmadOsman: 这就是原因：

微软萨提亚·纳德拉表示，未来在于学习循环。但谁真正拥有它？

@TheAhmadOsman：本地AI是未来。学习如何运行开源模型（推理），如何系统地评估它们（评估），……

@oneill_c: https://x.com/oneill_c/status/2054604986269802579

提交意见反馈