自动驾驶推理模型，ChatGPT引入广告，苹果与谷歌的协议，3D生成Pronto

The Batch 2026/01/23 17:17 新闻

摘要

Andrew Ng讨论了企业如何从渐进式AI效率提升转向变革性的工作流程重构，并以贷款处理为例。该通讯还涵盖了自动驾驶推理模型、ChatGPT广告、苹果与谷歌的交易以及3D生成等主题。

The Batch AI News and Insights：企业如何超越使用AI进行渐进式效率提升，以创造变革性影响？

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/08 06:39

# 自驱推理模型、ChatGPT加入广告、苹果与谷歌的交易等…… 来源：https://www.deeplearning.ai/the-batch/issue-337/ 亲爱的朋友们，企业如何才能超越将AI用于渐进式效率提升，从而实现转型性的影响？我正在瑞士达沃斯世界经济论坛 (WEF) 撰写这封信，在那里我与许多CEO交流了如何利用AI实现增长。这些对话中反复出现的一个主题是，运行许多实验性的、自下而上的AI项目——让百花齐放——未能带来显著的回报。相反，更大的收益需要工作流程的重新设计：采取更广泛、或许是自上而下的视角，审视流程中的多个步骤，并改变它们从头到尾协同工作的方式。设想一家发放贷款的银行。工作流程由几个独立的阶段组成：**市场营销 -> 申请 -> 初步审批 -> 最终审查 -> 执行** 假设每个步骤以前都是人工完成的。初步审批过去需要一小时的专人审核，但现在一个新的智能代理系统可以在10分钟内自动完成这项任务。用AI审核替代人工审核——但保持其他一切不变——只会带来微小的效率提升，而非变革性的改变。以下是变革性的做法：申请人不再需要等待一周让专人审核他们的申请，他们可以在10分钟内得到决定。当这种情况发生时，贷款就变成了一个更具吸引力的产品，而更好的客户体验使贷款机构能够吸引更多申请，最终发放更多贷款。然而，做出这一改变需要从更广泛的业务或产品视角出发，而不仅仅是技术视角。此外，它还改变了贷款处理的工作流程。切换到提供“10分钟贷款”产品，需要改变其营销方式。申请需要数字化并以更高效的方式路由，最终审查和执行也需要重新设计以处理更大的业务量。 Andrew Ng 在达沃斯世界经济论坛上发言的特写，背景板上有白色文字的“World Economic Forum”。尽管AI仅应用于初步审批这一步，但我们最终实施的不仅仅是单点解决方案，而是更广泛的工作流程重新设计，从而彻底改变了产品供应。在AI Aspire (我共同领导的一家咨询公司)，我们观察到的是：自下而上的创新很重要，因为离问题最近的人往往最先看到解决方案。但要将这些想法规模化以实现变革性影响，通常需要看到AI如何端到端地改变整个工作流程，而不仅仅是单个步骤，而这正是自上而下的战略方向和创新的用武之地。今年的WEF会议，与以往年份一样，是一个充满活力的活动。技术人员之间讨论的频繁话题包括：智能代理AI (当我创造这个术语时，我没想到它会出现在广告牌和建筑上！)、主权AI (国家如何控制自己获取AI的途径)、人才 (应届毕业生面临的挑战性就业市场，以及如何提升国家技能水平)，以及数据中心基础设施 (如何解决能源、人才、GPU芯片和内存方面的瓶颈)。我将在未来的信中讨论其中一些主题。在地缘政治不确定性日益增加的背景下，我希望我们所有AI从业者将继续搭建连接各国的桥梁，通过开源分享，构建有益于所有国家和所有人民的技术。继续创造！ Andrew --- ## 来自DEEPLEARNING.AI的消息 [Gemini CLI] (https://www.deeplearning.ai/short-courses/gemini-cli-code-and-create-with-an-open-source-agent) 的推广横幅学习如何使用 Gemini CLI 从命令行构建多步骤工作流程，Gemini CLI 是一个开源代理，可在本地文件、开发工具和云服务之间工作。自动化编码任务、构建软件功能、创建仪表板，并在代码之外应用代理工作流程。立即注册 (https://www.deeplearning.ai/short-courses/gemini-cli-code-and-create-with-an-open-source-agent) ## 新闻手机上 ChatGPT 界面显示一个对话，屏幕底部有一个赞助杂货广告。## ChatGPT 显示广告 AI 有了新的收入来源，而且它看起来很像旧式的网页横幅广告。 **最新动态：**OpenAI 开始测试在 ChatGPT 中展示广告。广告面向美国使用 OpenAI 免费版和最廉价方案的用户 (不面向 ChatGPT Plus、Pro、Business 或 Enterprise 层的订阅者或 API 用户)。该公司计划将该实验扩展到其他地区，并在未明确的时间线上测试更具对话性的广告。 **运作方式：**与对话相关的广告将出现在聊天的底部，包括简短信息、图片和链接。它们不会影响聊天回复。广告仅展示给美国境内登录桌面或移动版 ChatGPT 网站或应用的成年人。 - **外观与感觉：**广告有清晰标注，并与聊天回复分开。用户可以关闭广告并提供反馈。 - **隐私：**讨论健康、心理健康或政治的聊天附近不会显示广告。对话不会与广告商共享。 - **控制：**除对话外，广告会根据每个用户的聊天历史、位置以及他们在 ChatGPT 中分享的个人信息进行个性化定制。用户可以开启或关闭个性化设置，重置用于广告定向的数据，或完全清除其聊天历史。 - **未来计划：**广告最终可能以不同的布局形式出现，并面向不同地区和不同用户层级的用户。OpenAI 展示了一个模拟图，在移动应用中的对话顶部（而非底部）显示一个展示广告。该公司表示，未来的广告可能允许用户就广告内容提问，以帮助做出购买决定。OpenAI 表示将始终提供无广告方案，但未排除将广告扩展到其他付费层级的可能性。 **背后消息：**OpenAI 正在设法带来足够收入以实现盈利。该公司透露，其在 2025 年实现了 200 亿美元的收入，并使用了 1.9 吉瓦的计算能力，成本估计超过 90 亿美元。(自 2023 年以来，其收入和计算处理量大约每年增长三倍。) 与此同时，据《The Information》报道，OpenAI 预计到 2029 年的资本支出将达到 1150 亿美元。广告是其不断发展的收入战略的一部分，该战略还包括订阅、电子商务和按用量计费 API 访问。 - **订阅：**OpenAI 表示 ChatGPT 的每周和每月活跃用户数继续达到历史新高，但未说明具体数字或免费和付费方案之间的划分。十月份，CEO Sam Altman 表示 ChatGPT 拥有 8 亿周活跃用户，其中包括据报道的 3500 万 Plus 或 Pro 订阅者。 - **本地化定价：**OpenAI 宣布在全球范围内扩展 ChatGPT Go，这是该公司在印度测试的低成本、功能有限的订阅方案。ChatGPT Go 在美国售价为每月 8 美元，在某些国家价格更低；例如，在印度为每月 399 卢比（约合 4.40 美元）。 - **电子商务：**九月份，OpenAI 推出了智能代理购物功能，允许登录用户在 ChatGPT 内直接从参与商家（包括 Etsy、Shopify 和 Walmart）购买商品。目前尚不清楚用户是否能在当前测试中直接购买广告产品。 **为何重要：**将 AI 交付给快速增长、全球范围的市场会带来巨大的开支，而商业战略仍在演变中。与其大型科技竞争对手不同，OpenAI 没有其他业务来抵消这些成本 (尽管谷歌也在试验聊天机器人广告)。广告与低成本 ChatGPT 订阅的结合为 OpenAI 提供了一条新的盈利途径。如果成功，公司的高级层级将不再完全补贴免费层级，而高级层用户将继续使用无广告的 ChatGPT，至少目前如此。 **我们的思考：**OpenAI 正通过展示广告这一经过验证的广告形式试水。然而，真正原生的聊天机器人广告在外观和感觉上很可能会有显著不同。 --- 从一辆汽车内看到的绿树成荫的街道视图，叠加显示一条指令，指示如果检测到危险则减速。## 训练汽车进行推理思维链推理可以帮助自动驾驶车辆决定下一步该做什么。 **最新动态：**Nvidia 发布了 Alpamayo-R1，一个用于自动驾驶车辆的视觉语言动作模型，它利用推理来减少潜在的碰撞。 - **输入/输出：**输入：每个摄像头 2 秒视频、文本命令、位置和旋转历史；输出：推理文本、车辆未来 6.4 秒轨迹（位置和旋转），在 Nvidia RTX Pro 6000 (Blackwell) 上运行延迟为 99 毫秒 - **架构：**Transformer 编码器 (82 亿参数)，Transformer 解码器 (23 亿参数) - **性能：**在模拟中，与其他车辆的“近距离接触”减少（距离未指定） - **可用性：**权重可供非商业使用下载 - **未公开：**与竞争模型的性能比较、数据集以及训练中使用的奖励模型 **运作方式：**Alpamayo-R1 由 Cosmos-Reason1（一个经过预训练以描述动作的视觉语言模型）和一个生成车辆轨迹数据的扩散 Transformer 组成。给定代表过去 2 秒的视频帧和轨迹数据以及可能的语言命令，Cosmos-Reason1 生成推理文本。给定 Cosmos Reason 输出的视频帧嵌入、先前轨迹数据和推理文本，扩散 Transformer 生成未来轨迹数据。作者分三个阶段训练该系统： - 作者训练 Alpamayo-R1 生成涵盖多个领域的动作，包括医疗保健、物流、零售和制造业以及自动驾驶。 - 他们使用 80,000 小时的视频和带有手动或机器生成推理的车辆运动数据，训练 Alpamayo-R1 进行推理并生成动作。推理文本包括在任何特定视频帧做出的最多两个决定（例如，停车、设定速度或并道）以及任何数量的决策理由（例如，人行道上有行人、前方车道合并或道路施工）。 - 他们通过强化学习进一步训练系统，以提升其推理技能，并使其推理与行动保持一致。具体来说，他们根据以下标准奖励系统：(i) 推理与真实推理对齐的程度（依据未指定的奖励模型），(ii) 推理与后续行动依据简单规则对齐的程度，(iii) 输出行动与真实行动对齐的程度，预测行动是否导致碰撞，以及车辆执行行动的平滑程度。 **结果：**作者将他们的系统与仅在相同数据上训练（但未使用推理数据集）的版本进行了比较。在 75 个模拟场景中，推理模型与其他车辆发生“近距离接触”（距离未透露）的时间比例为 11%，低于非推理模型的 17%。 **为何重要：**思维链推理对机器人很有用。与早期使用推理的视觉语言动作模型不同，Alpamayo-R1 的训练不仅旨在鼓励更好的性能，还使其行动与推理相匹配。这使得模型的推理既更有效也更易于解释。在发生事故时，工程师可以审查系统的推理，以理解其做出特定决定的原因，然后调整训练或推理，以避免将来出现类似结果。 **我们的思考：**在过去的一年中，推理模型在数学、科学、编码、图像理解和机器人学方面的表现超过了其非推理的同类模型。事实证明，思维链是一种极其有用的算法。 --- 苹果标志与

自动驾驶推理模型，ChatGPT引入广告，苹果与谷歌的协议，3D生成Pronto

相似文章

GPT-5.4引起轰动，AI在移动端的增长，数据中心走向离网，苹果的扩散研究

智能体购物，重新定义智能，图片文字优化，高参与度意味着对齐更差

新开放权重领导者，大型AI的政治影响力，疾病预测，更快的推理

针对数据中心的攻击、各种尺寸的Qwen3.5、DeepSeek与华为的合作、Apple的多模态分词器

ChatGPT广告购买新方式

提交意见反馈