自动驾驶推理模型,ChatGPT引入广告,苹果与谷歌的协议,3D生成Pronto
摘要
Andrew Ng讨论了企业如何从渐进式AI效率提升转向变革性的工作流程重构,并以贷款处理为例。该通讯还涵盖了自动驾驶推理模型、ChatGPT广告、苹果与谷歌的交易以及3D生成等主题。
The Batch AI News and Insights:企业如何超越使用AI进行渐进式效率提升,以创造变革性影响?
查看缓存全文
缓存时间: 2026/05/08 06:39
# 自驱推理模型、ChatGPT加入广告、苹果与谷歌的交易等……
来源:https://www.deeplearning.ai/the-batch/issue-337/
亲爱的朋友们,
企业如何才能超越将AI用于渐进式效率提升,从而实现转型性的影响?我正在瑞士达沃斯世界经济论坛 (WEF) 撰写这封信,在那里我与许多CEO交流了如何利用AI实现增长。这些对话中反复出现的一个主题是,运行许多实验性的、自下而上的AI项目——让百花齐放——未能带来显著的回报。相反,更大的收益需要工作流程的重新设计:采取更广泛、或许是自上而下的视角,审视流程中的多个步骤,并改变它们从头到尾协同工作的方式。
设想一家发放贷款的银行。工作流程由几个独立的阶段组成:**市场营销 -> 申请 -> 初步审批 -> 最终审查 -> 执行**
假设每个步骤以前都是人工完成的。初步审批过去需要一小时的专人审核,但现在一个新的智能代理系统可以在10分钟内自动完成这项任务。用AI审核替代人工审核——但保持其他一切不变——只会带来微小的效率提升,而非变革性的改变。
以下是变革性的做法:申请人不再需要等待一周让专人审核他们的申请,他们可以在10分钟内得到决定。当这种情况发生时,贷款就变成了一个更具吸引力的产品,而更好的客户体验使贷款机构能够吸引更多申请,最终发放更多贷款。
然而,做出这一改变需要从更广泛的业务或产品视角出发,而不仅仅是技术视角。此外,它还改变了贷款处理的工作流程。切换到提供“10分钟贷款”产品,需要改变其营销方式。申请需要数字化并以更高效的方式路由,最终审查和执行也需要重新设计以处理更大的业务量。
Andrew Ng 在达沃斯世界经济论坛上发言的特写,背景板上有白色文字的“World Economic Forum”。尽管AI仅应用于初步审批这一步,但我们最终实施的不仅仅是单点解决方案,而是更广泛的工作流程重新设计,从而彻底改变了产品供应。
在AI Aspire (我共同领导的一家咨询公司),我们观察到的是:自下而上的创新很重要,因为离问题最近的人往往最先看到解决方案。但要将这些想法规模化以实现变革性影响,通常需要看到AI如何端到端地改变整个工作流程,而不仅仅是单个步骤,而这正是自上而下的战略方向和创新的用武之地。
今年的WEF会议,与以往年份一样,是一个充满活力的活动。技术人员之间讨论的频繁话题包括:智能代理AI (当我创造这个术语时,我没想到它会出现在广告牌和建筑上!)、主权AI (国家如何控制自己获取AI的途径)、人才 (应届毕业生面临的挑战性就业市场,以及如何提升国家技能水平),以及数据中心基础设施 (如何解决能源、人才、GPU芯片和内存方面的瓶颈)。我将在未来的信中讨论其中一些主题。
在地缘政治不确定性日益增加的背景下,我希望我们所有AI从业者将继续搭建连接各国的桥梁,通过开源分享,构建有益于所有国家和所有人民的技术。
继续创造!
Andrew
---
## 来自DEEPLEARNING.AI的消息
[Gemini CLI] (https://www.deeplearning.ai/short-courses/gemini-cli-code-and-create-with-an-open-source-agent) 的推广横幅学习如何使用 Gemini CLI 从命令行构建多步骤工作流程,Gemini CLI 是一个开源代理,可在本地文件、开发工具和云服务之间工作。自动化编码任务、构建软件功能、创建仪表板,并在代码之外应用代理工作流程。立即注册 (https://www.deeplearning.ai/short-courses/gemini-cli-code-and-create-with-an-open-source-agent)
## 新闻
手机上 ChatGPT 界面显示一个对话,屏幕底部有一个赞助杂货广告。## ChatGPT 显示广告
AI 有了新的收入来源,而且它看起来很像旧式的网页横幅广告。
**最新动态:**OpenAI 开始测试在 ChatGPT 中展示广告。广告面向美国使用 OpenAI 免费版和最廉价方案的用户 (不面向 ChatGPT Plus、Pro、Business 或 Enterprise 层的订阅者或 API 用户)。该公司计划将该实验扩展到其他地区,并在未明确的时间线上测试更具对话性的广告。
**运作方式:**与对话相关的广告将出现在聊天的底部,包括简短信息、图片和链接。它们不会影响聊天回复。广告仅展示给美国境内登录桌面或移动版 ChatGPT 网站或应用的成年人。
- **外观与感觉:**广告有清晰标注,并与聊天回复分开。用户可以关闭广告并提供反馈。
- **隐私:**讨论健康、心理健康或政治的聊天附近不会显示广告。对话不会与广告商共享。
- **控制:**除对话外,广告会根据每个用户的聊天历史、位置以及他们在 ChatGPT 中分享的个人信息进行个性化定制。用户可以开启或关闭个性化设置,重置用于广告定向的数据,或完全清除其聊天历史。
- **未来计划:**广告最终可能以不同的布局形式出现,并面向不同地区和不同用户层级的用户。OpenAI 展示了一个模拟图,在移动应用中的对话顶部(而非底部)显示一个展示广告。该公司表示,未来的广告可能允许用户就广告内容提问,以帮助做出购买决定。OpenAI 表示将始终提供无广告方案,但未排除将广告扩展到其他付费层级的可能性。
**背后消息:**OpenAI 正在设法带来足够收入以实现盈利。该公司透露,其在 2025 年实现了 200 亿美元的收入,并使用了 1.9 吉瓦的计算能力,成本估计超过 90 亿美元。(自 2023 年以来,其收入和计算处理量大约每年增长三倍。) 与此同时,据《The Information》报道,OpenAI 预计到 2029 年的资本支出将达到 1150 亿美元。广告是其不断发展的收入战略的一部分,该战略还包括订阅、电子商务和按用量计费 API 访问。
- **订阅:**OpenAI 表示 ChatGPT 的每周和每月活跃用户数继续达到历史新高,但未说明具体数字或免费和付费方案之间的划分。十月份,CEO Sam Altman 表示 ChatGPT 拥有 8 亿周活跃用户,其中包括据报道的 3500 万 Plus 或 Pro 订阅者。
- **本地化定价:**OpenAI 宣布在全球范围内扩展 ChatGPT Go,这是该公司在印度测试的低成本、功能有限的订阅方案。ChatGPT Go 在美国售价为每月 8 美元,在某些国家价格更低;例如,在印度为每月 399 卢比(约合 4.40 美元)。
- **电子商务:**九月份,OpenAI 推出了智能代理购物功能,允许登录用户在 ChatGPT 内直接从参与商家(包括 Etsy、Shopify 和 Walmart)购买商品。目前尚不清楚用户是否能在当前测试中直接购买广告产品。
**为何重要:**将 AI 交付给快速增长、全球范围的市场会带来巨大的开支,而商业战略仍在演变中。与其大型科技竞争对手不同,OpenAI 没有其他业务来抵消这些成本 (尽管谷歌也在试验聊天机器人广告)。广告与低成本 ChatGPT 订阅的结合为 OpenAI 提供了一条新的盈利途径。如果成功,公司的高级层级将不再完全补贴免费层级,而高级层用户将继续使用无广告的 ChatGPT,至少目前如此。
**我们的思考:**OpenAI 正通过展示广告这一经过验证的广告形式试水。然而,真正原生的聊天机器人广告在外观和感觉上很可能会有显著不同。
---
从一辆汽车内看到的绿树成荫的街道视图,叠加显示一条指令,指示如果检测到危险则减速。## 训练汽车进行推理
思维链推理可以帮助自动驾驶车辆决定下一步该做什么。
**最新动态:**Nvidia 发布了 Alpamayo-R1,一个用于自动驾驶车辆的视觉语言动作模型,它利用推理来减少潜在的碰撞。
- **输入/输出:**输入:每个摄像头 2 秒视频、文本命令、位置和旋转历史;输出:推理文本、车辆未来 6.4 秒轨迹(位置和旋转),在 Nvidia RTX Pro 6000 (Blackwell) 上运行延迟为 99 毫秒
- **架构:**Transformer 编码器 (82 亿参数),Transformer 解码器 (23 亿参数)
- **性能:**在模拟中,与其他车辆的“近距离接触”减少(距离未指定)
- **可用性:**权重可供非商业使用下载
- **未公开:**与竞争模型的性能比较、数据集以及训练中使用的奖励模型
**运作方式:**Alpamayo-R1 由 Cosmos-Reason1(一个经过预训练以描述动作的视觉语言模型)和一个生成车辆轨迹数据的扩散 Transformer 组成。给定代表过去 2 秒的视频帧和轨迹数据以及可能的语言命令,Cosmos-Reason1 生成推理文本。给定 Cosmos Reason 输出的视频帧嵌入、先前轨迹数据和推理文本,扩散 Transformer 生成未来轨迹数据。作者分三个阶段训练该系统:
- 作者训练 Alpamayo-R1 生成涵盖多个领域的动作,包括医疗保健、物流、零售和制造业以及自动驾驶。
- 他们使用 80,000 小时的视频和带有手动或机器生成推理的车辆运动数据,训练 Alpamayo-R1 进行推理并生成动作。推理文本包括在任何特定视频帧做出的最多两个决定(例如,停车、设定速度或并道)以及任何数量的决策理由(例如,人行道上有行人、前方车道合并或道路施工)。
- 他们通过强化学习进一步训练系统,以提升其推理技能,并使其推理与行动保持一致。具体来说,他们根据以下标准奖励系统:(i) 推理与真实推理对齐的程度(依据未指定的奖励模型),(ii) 推理与后续行动依据简单规则对齐的程度,(iii) 输出行动与真实行动对齐的程度,预测行动是否导致碰撞,以及车辆执行行动的平滑程度。
**结果:**作者将他们的系统与仅在相同数据上训练(但未使用推理数据集)的版本进行了比较。在 75 个模拟场景中,推理模型与其他车辆发生“近距离接触”(距离未透露)的时间比例为 11%,低于非推理模型的 17%。
**为何重要:**思维链推理对机器人很有用。与早期使用推理的视觉语言动作模型不同,Alpamayo-R1 的训练不仅旨在鼓励更好的性能,还使其行动与推理相匹配。这使得模型的推理既更有效也更易于解释。在发生事故时,工程师可以审查系统的推理,以理解其做出特定决定的原因,然后调整训练或推理,以避免将来出现类似结果。
**我们的思考:**在过去的一年中,推理模型在数学、科学、编码、图像理解和机器人学方面的表现超过了其非推理的同类模型。事实证明,思维链是一种极其有用的算法。
---
苹果标志与
相似文章
GPT-5.4引起轰动,AI在移动端的增长,数据中心走向离网,苹果的扩散研究
本期新闻简报涵盖GPT-5.4的发布、AI在移动设备上的增长、数据中心脱离电网、苹果的扩散研究,以及吴恩达关于AI编码代理的Context Hub工具的讨论,包括Meta收购Moltbook。
智能体购物,重新定义智能,图片文字优化,高参与度意味着对齐更差
吴恩达讨论美国政策如何促使盟友转向主权AI和开源模型,并以DeepSeek、Qwen和K2 Think为例。他认为开源AI可以帮助各国减少对美国技术的依赖。
新开放权重领导者,大型AI的政治影响力,疾病预测,更快的推理
本期涵盖新开放权重AI领导者、AI日益增长的政治影响力、利用AI预测疾病以及更快的推理模型。吴恩达还讨论了AI创造新就业机会的潜力以及他个人对AI代理的使用。
针对数据中心的攻击、各种尺寸的Qwen3.5、DeepSeek与华为的合作、Apple的多模态分词器
Andrew Ng的时事通讯涵盖了近期AI发展,包括针对数据中心的攻击、各种尺寸的Qwen3.5的发布、DeepSeek与华为的合作、Apple的多模态分词器,以及对AI驱动的就业不确定性和地缘政治风险的反思。
ChatGPT广告购买新方式
OpenAI扩展ChatGPT广告试点,推出自助式广告管理器测试版、CPC竞价和增强型效果衡量工具,让企业投放广告更加便捷。