GPT-5.4引起轰动,AI在移动端的增长,数据中心走向离网,苹果的扩散研究

The Batch 新闻

摘要

本期新闻简报涵盖GPT-5.4的发布、AI在移动设备上的增长、数据中心脱离电网、苹果的扩散研究,以及吴恩达关于AI编码代理的Context Hub工具的讨论,包括Meta收购Moltbook。

The Batch AI News and Insights: 是否应该有一个供AI编码代理相互分享学习经验的Stack Overflow?
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 06:26

# GPT-5.4 惊艳亮相,AI 在移动端增长,数据中心走向离网,以及更多…… 来源:https://www.deeplearning.ai/the-batch/issue-344/ 亲爱的朋友们, 是否应该有一个类似 Stack Overflow 的平台,让 AI 编码代理能够相互分享它们的学习经验? 上周,我写了(https://www.deeplearning.ai/the-batch/crowdsourced-context-for-coding-agents/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9JC4D-W5UcjdQ8rV37QH0gl9Mg2LEqt0aAgHOHo4FxPDoSs6tsWv62X4V9mcrBXuP6xOes)关于新的 Context Hub(https://github.com/andrewyng/context-hub?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9JC4D-W5UcjdQ8rV37QH0gl9Mg2LEqt0aAgHOHo4FxPDoSs6tsWv62X4V9mcrBXuP6xOes)(chub),这是一个为编码代理提供 API 文档的命令行工具。使用从旧代码示例中学习的大语言模型构建的编码代理经常使用不正确或过时的 API。Chub 通过让它们访问最新文档来解决这个问题。过去一周,社区对 chub 的热情让我非常激动(超过 5000 个 GitHub 星标,使用量增长,以及社区贡献的文档)。感谢你们的支持! chub 愿景的一个关键部分是获取来自编码代理的反馈,这些反馈可以帮助其他代理。具体来说,如果一个代理获取了一份文档,尝试使用,发现了一个 bug,找到了一个更好的 API 使用方式,或者意识到文档缺少某些内容,反映这些学习经验的反馈对于人类更新文档非常有用。或者,也许有一天,代理会自动更新文档。 Moltbook,一个面向代理的类似 Reddit 的社交网络,随着许多 OpenClaw 代理的使用而迅速增长,Meta 在本周初收购了它。我发现 AI 代理之间关于各种话题(比如它们的“灵魂”)的对话有点娱乐性。我认为有空间为代理开发一种新的社交媒体,专注于在实用方面提供价值。 一个蓝色机器人询问一个较旧的端点;着火的橙色机器人在技术环境中建议不要使用它。Stack Overflow 一直是为开发者提供的一项出色服务。在这里,我们可以提问、回答问题,并对答案进行点赞/踩。它已经成为大语言模型训练数据的重要来源,现在许多开发者向大语言模型提出编码问题,而不是 Stack Overflow。但受 Moltbook 和 Stack Overflow 的启发,我认为让编码代理贡献它们对文档的反馈,以帮助其他代理,将是非常有用的。 我们还在 chub 中构建这一功能的早期阶段。(如果你想使用 chub 但不想让你的代理贡献反馈,可以通过在 ~/.chub/config.yaml 中添加“feedback: false”来禁用此功能;详情请参阅我们的 GitHub 仓库(https://github.com/andrewyng/context-hub?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9JC4D-W5UcjdQ8rV37QH0gl9Mg2LEqt0aAgHOHo4FxPDoSs6tsWv62X4V9mcrBXuP6xOes)。我的合作者 Rohit Prsad、Xin Ye 和我正在开发一个定制的智能体深度研究员,以帮助我们编写更多文档。结合社区贡献,过去一周,我们已经将文档集合从不到 100 份增长到接近 1000 份。我预计来自编码代理的反馈将有助于不断完善这些文档,造福所有编码代理。 社交分享不仅仅是人类的专利。它也适用于代理!随着我们探索让多个代理相互学习的方式——同时谨慎提供强有力的隐私和安全保障——我们将使 AI 代理以及它们所服务的人类都变得更好。 继续构建吧! Andrew --- ## 来自 DeepLearning.AI 的消息 "智能体 AI"(https://www.deeplearning.ai/courses/agentic-ai)的宣传横幅在*智能体 AI*课程中,由 Andrew Ng 教授,你将学习如何用纯 Python 设计多步骤、自主的工作流,涵盖四种设计模式:反思、工具使用、规划和多智能体协作。仅在 DeepLearning.AI 提供。立即报名!(https://www.deeplearning.ai/courses/agentic-ai) ## 新闻 表格显示 GPT-5.4 在 GDPval 和 Tau2-bench Telecom 上表现优异,创下新的最先进分数。## GPT-5.4:更高性能,更高价格 OpenAI 更新了其旗舰模型,扩展了使用工具的能力,并在若干基准测试上取得了最先进的结果,同时定价处于市场顶端。其编码和智能体能力使 Codex(OpenAI 对抗 Anthropic 的 Claude Code 的竞品)得以大幅领先。 **最新动态:**GPT-5.4 提供两个版本:Thinking 和 Pro,两者相对于 GPT-5.2 都有更大的上下文窗口。(GPT-5.3 和 GPT-5.4 的发布仅相隔两天,OpenAI 没有给出解释。)GPT-5.4 模型经过训练,能够原生使用计算机,并帮助代理更高效地查找和使用工具,这一能力称为工具搜索。 - **输入/输出:**文本、图像输入(最多 1,050,000 个 token),文本输出(最多 128,000 个 token) - **架构:**混合专家 transformer - **功能:**工具使用(Google 搜索、Python 代码执行、文件搜索、函数调用)、工具搜索、计算机使用、可调节推理(低、中、高、极高) - **性能:**在独立测试中,GPT-5.4 Pro 设置为极高推理时,在 GDP-Val-AA、BrowseComp、Terminal-Bench-Hard、SWE-Bench-Pro 和 MCP Atlas 上取得了最先进的结果;在 MMMU-Pro 和 Humanity's Last Exam(无工具)上略低于 Gemini 3.1 Pro Preview,在 ARC-AGI-1 和 ARC-AGI-2 上略低于 Gemini 3 Deep Think。 - **可用性/价格:**GPT-5.4 在 ChatGPT 中可通过 Plus、Team 和 Pro 订阅层级使用。通过 API,GPT-5.4 的价格为每百万输入/缓存/输出 token 2.50/0.25/15 美元,GPT-5.4 Pro 的价格为每百万输入/输出 token 30/180 美元。 - **知识截止日期:**2025 年 8 月 - **未公开:**参数量、架构细节、训练方法 **工作原理:**与封闭模型一贯的做法一样,OpenAI 几乎没有透露如何构建 GPT-5.4 和 GPT-5.4 Pro 的细节。该模型是一个稀疏混合专家 transformer,预训练于从网络抓取的文本、代码和图像,以及许可材料、用户数据和合成数据。它通过强化学习在涵盖多步推理、解决问题和证明定理的数据集上进行微调。 **性能:**在 Artificial Analysis 的独立测试中,GPT-5.4 Pro 超越了 GPT-5.2 Pro 和 Claude 4.6 Opus,在多项指标上取得最先进结果。但即使在 OpenAI 自己的测试中,它在某些任务上也落后于 Gemini 3.1 Pro Preview,并且运行相同测试的成本更高。 - 在 Artificial Analysis 的智能指数(https://artificialanalysis.ai/models/gpt-5-4?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9JC4D-W5UcjdQ8rV37QH0gl9Mg2LEqt0aAgHOHo4FxPDoSs6tsWv62X4V9mcrBXuP6xOes)(一个聚焦于经济上有用工作的 10 个基准的加权平均值)上,GPT-5.4 Pro 设置为极高推理时几乎与 Gemini 3.1 Pro Preview(带推理)持平(57 分,成本 2,950 美元 vs. 57.2 分,成本 892 美元),但超过了 Claude Opus 4.6(最大推理,53 分,2,486 美元)、GPT-5.3 Codex(极高推理,54 分,1,650 美元)和开源模型 GLM-5(50 分,547 美元)。它在指数的 10 个组件基准中领先其中三项。 - GPT-5.4 Pro 设置为极高推理在 Artificial Analysis 的编码和智能体指数(智能指数中分别针对两大类的子集)中名列前茅,得分分别为 57 分和 69 分,超过了 Gemini 3.1 Pro Preview(56 分)和 Claude Opus 4.6(68 分)。 - 在 ARC-AGI-2(https://arcprize.org/leaderboard?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9JC4D-W5UcjdQ8rV37QH0gl9Mg2LEqt0aAgHOHo4FxPDoSs6tsWv62X4V9mcrBXuP6xOes)视觉逻辑谜题上,GPT-5.4 Pro 设置为极高推理(83.3%)领先于 Gemini 3.1 Pro Preview(74.0%),但略低于 Gemini 3 Deep Think(84.6%)。 **为什么重要:**OpenAI 的 GPT 5.4 已经暂时超越了 Anthropic 的 Claude,挑战 Google 的 Gemini 争夺榜首位置。OpenAI 宣称 GPT-5.4 系列每 token 性能提升,但它仍然需要两倍于 Gemini 3.1 Pro Preview 的 token 数量才能达到后者的性能,而其更高的效率在很大程度上被更高的价格所抵消。GPT-5.4 Pro 是一个最先进的编码模型,完成编码任务的价格低于 Claude Opus 4.6。但 Google 能够保持 Gemini 3.1 Preview 的低价格和高整体智能,以及处理音频和视频的能力,对任何旨在成为无可争议领导者的 AI 公司来说,仍然是一个巨大障碍。 **我们的想法:**GPT-5.4 在 OpenAI 内部开发的基准测试上排名最高,这在意料之中。但这些指标表明,这些模型是为解决办公自动化中的困难问题而构建的。GPT-5.4 Pro 在 GDPval(https://openai.com/index/gdpval/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9JC4D-W5UcjdQ8rV37QH0gl9Mg2LEqt0aAgHOHo4FxPDoSs6tsWv62X4V9mcrBXuP6xOes)(在撰写法律简报和客户支持对话等知识工作任务中,对专业人士的胜率或平局率为 83%)和 OSWorld-Verified(https://xlang.ai/blog/osworld-verified?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9JC4D-W5UcjdQ8rV37QH0gl9Mg2LEqt0aAgHOHo4FxPDoSs6tsWv62X4V9mcrBXuP6xOes)(在导航网站和从文件更新电子表格等计算机使用任务中,成功率为 75%,高于人类基线 72.4%)上表现出色。考虑到这些工作的人力成本很高,即使是极高推理模式的 GPT-5.4 Pro,也可能被证明是划算的。 --- 2025 年移动 AI 使用情况信息图:1490 亿次下载,1670 亿美元收入,5.3 万亿小时使用时长,每天 3.6 小时,每月 34 个应用。## 移动端 AI 飙升 移动 AI 应用的下载量和由此产生的收入正在激增。 **最新动态:**市场研究公司 Sensor Tower 发布的 2026 年移动报告(https://sensortower.com/report/state-of-mobile-2026/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9JC4D-W5UcjdQ8rV37QH0gl9Mg2LEqt0aAgHOHo4FxPDoSs6tsWv62X4V9mcrBXuP6xOes)追踪了智能手机上 AI 助手、生成式应用和 AI 伴侣的快速增长。根据该公司的分析,去年,得益于 AI 应用的支出,非游戏应用的收入首次超过了游戏收入。 **工作原理:**作者评估了 2025 年移动 AI 市场。他们基于专有数据和开发者数据,估算了 iOS App Store 和 Google Play 上的下载量、使用时长和应用内收入(但不包括广告收入)。他们没有从其他应用商店获取数据,因此报告未反映中国等地区的移动活动,在这些地区,用户主要从国内公司运营的商店下载应用。 - **概述:**去年,AI 驱动的应用的全球收入和下载量加速增长。收入增长了两倍,超过 50 亿美元,而下载量翻了一番,超过 38 亿次。 - **领导者:**下载量最大的 AI 应用(定义为使用 AI 进行创意或生成任务的应用)是 OpenAI 的 ChatGPT,其次是 Google Gemini、DeepSeek、字节跳动的豆包,以及 AI 增强搜索引擎 Perplexity。OpenAI 和 DeepSeek 占据了全球 AI 下载量的近 50%,高于 2023 年(Sensor Tower 开始追踪该类别时)的 21%。亚马逊、谷歌和微软等老牌科技公司占过去一年下载量的 30%,高于 2023 年的 14%。AI 初创公司的长尾占据了最后的 20%。 - **助手与生成器:**下载量前 10 的应用都是 AI 助手。尽管如此,Suno 音乐生成器和字节跳动的即梦 AI 文生视频应用等生成式应用也表现出强劲增长。美国前 10 名 AI 助手的用户数量大约相当于总人口的 60%。 - **参与度:**用户在 AI 应用上花费了 480 亿小时,大约是 2024 年总数的 3.6 倍,是 2023 年小时数的近 10 倍。 - **应用与网页:**大约 1.1 亿美国聊天机器人用户(超过一半)仅通过移动应用使用 AI,而 2024 年初这一数字为 1300 万。另有 3400 万 AI 助手用户同时通过应用和移动网页访问它们。 **新闻背后:**移动 AI 助手仅有几年历史,用户行为正在迅速变化。OpenAI 于 2023 年 5 月推出了第一款 ChatGPT 移动应用(https://openai.com/index/introducing-the-chatgpt-app-for-ios/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9JC4D-W5UcjdQ8rV37QH0gl9Mg2LEqt0aAgHOHo4FxPDoSs6tsWv62X4V9mcrBXuP6xOes)。如今,几乎所有主要 AI 助手都可以通过应用获取。今年早些时候,微软发现(https://www.deeplearning.ai/the-batch/microsoft-study-shows-people-use-ai-very-differently-at-different-times-or-on-different-devices/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9JC4D-W5UcjdQ8rV37QH0gl9Mg2LEqt0aAgHOHo4FxPDoSs6tsWv62X4V9mcrBXuP6xOes)Copilot 用户在移动设备上和一天中的不同时间表现不同。例如,移动用户更倾向于讨论健康和健身,而不是工作和生产力。 **为什么重要:**AI 正成为数百万用户的习惯,不仅在工作时,而且在离开办公桌、移动设备比台式机更方便时也是如此。在这种背景下,AI 应用越来越多地直接与游戏、社交媒体和短视频争夺时间和注意力。花费的时间和注意力都转化为更多收入和长期使用。 **我们的想法:**AI 驱动的收入是否能赶超巨大的资本支出,这个问题引发了人们对 AI 泡沫的担忧。移动端 AI 收入的这种迅猛增长速度令人鼓舞! --- 沙漠景观中大型数据中心和发电厂的鸟瞰图,突显了离网建设。Meta 和 OpenAI 等科技公司正在建设私人发电厂,这些电厂将独立于区域电网运行,为其大规模建设 AI 数据中心供电。 **最新动态:**根据监管文件、许可证、投资者电话会议记录和其他文件,《华盛顿邮报》报道(https://www.washingtonpost.com/business/2026/02/19/data-centers-power-grid-ai/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9JC4D-W5UcjdQ8rV37QH0gl9Mg2LEqt0aAgHOHo4FxPDoSs6tsWv62X4V9mcrBXuP6xOes),美国计划或正在建设多个与数据中心相关的离网发电厂。这些电厂主要使用天然气,将直接连接到数据中心,绕过了电网连接带来的监管和延误。《邮报》的报道基于能源研究机构 Cleanview 的一项研究(https://cleanview.co/content/power-strategies-report?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9JC4D-W5UcjdQ8rV37QH0gl9Mg2LEqt0aAgHOHo4FxPDoSs6tsWv62X4V9mcrBXuP6xOes),该研究确定了 46 个“表后”私人发电厂项目(即直接向客户供电但也连接电网的项目),其中 90% 是在 2025 年宣布的。这些项目合计占美国计划数据中心总容量的 30%。在白宫的推动下,Alphabet、Meta、Microsoft、OpenAI、Oracle 和 xAI 的高管同意(https://www.nytimes.com/2026/03/04/technology/ai-energy-pledge-white-house-trump.html?utm_campaign=The%20Batch&utm_source=hs_email&utm_mediu

相似文章

GPT-5 和工作的新时代

OpenAI Blog

OpenAI 宣布推出 GPT-5,这是他们最先进的模型,统一了 GPT-4o、o 系列推理、智能体和高级数学等功能,将立即向 Team 用户推出,并为开发者提供 API 访问。此次发布是一个重大里程碑,已有 7 亿周活跃 ChatGPT 用户和 500 万付费企业用户在使用 OpenAI 的技术。

面向开发者推出GPT-5.1

OpenAI Blog

OpenAI发布了GPT-5.1,这是GPT-5系列中的一个新模型,它可以基于任务复杂度动态调整思考时间,在保持前沿智能的同时,性能比GPT-5快2-3倍。此次发布包括扩展的提示缓存(24小时保留)、新的编码工具(apply_patch和shell),以及针对延迟敏感应用的“无推理”模式。

介绍 GPT-5.4

OpenAI Blog

# 介绍 GPT-5.4 Source: [https://openai.com/index/introducing-gpt-5-4/](https://openai.com/index/introducing-gpt-5-4/) 今天,我们在 ChatGPT(作为 GPT‑5\.4 Thinking)、API 和 Codex 中发布 **GPT‑5\.4**。它是我们用于专业工作的最强大、最高效的前沿模型。我们还将在 ChatGPT 和 API 中发布 **GPT‑5\.4 Pro**,适合希望在复杂任务上获得极致性能的用户。GPT‑5\.4 融合了我们近期在推理、编码和智能体方面的最佳进展。