@petergyang: https://x.com/petergyang/status/2057608633333199096
摘要
这篇文章回顾了谷歌在I/O大会后的AI战略,指出了产品过多带来的混乱,以及Spark作为基于Gemini的个人代理的潜力。
查看缓存全文
缓存时间: 2026/05/22 15:57
我对 Google I/O 后 AI 策略的诚实评价
本周早些时候我参加了 Google I/O,想分享一下我对 Google AI 策略中哪些行之有效、哪些存在问题的看法。
📌 可以观看我带有示例的 15 分钟视频评测,或者继续阅读下文: https://www.youtube.com/watch?v=zvMfA1VtUi0
行之有效的是 Gemini 正在快速增长。Gemini 应用现在拥有 9 亿月活跃用户,仅次于 ChatGPT,同时 Google 也推出了大量新产品。
但后者正是问题的一部分:
AI 产品太多了
看看 Google 在 I/O 上发布的所有 AI 产品。乍一看,这像是炫耀实力的表现,但我认为这也有弊端。Google 推出了太多 AI 产品,以至于用户根本不知道从何下手了:
Nathan Clark@nathanclark_·5月20日在 gemini 里,去 ai studio 创建就行。哦,那是给你个人 Google One 账户用的。工作区要用 gemini business。不,不是 gemini advanced,现在改叫 ai pro 了。除非你需要 ai ultra。哦 agent?那个其实是在 spark 里做的。不,不是 gemini api 管理的 agent,5112.4K18K1.5M
在 Gemini、AI Studio、Antigravity、Spark、Flow、Stitch、Pomelli 以及十几个其他名字之间,消费者和企业用户越来越搞不清楚该用哪个产品做什么事了。
真正重要的 AI 竞赛有 3 场
我认为 Google 不应该到处发布各种产品,而应该专注于赢得三场 AI 竞赛:
- 将聊天进化为个人 Agent 的竞赛
- 构建编码+知识工作超级应用的竞赛
- 从文本扩展到多模态的竞赛
我们来逐一分析。
竞赛 1:将聊天进化为个人 Agent
我认为 AI 聊天时代即将结束。人们不想要只在聊天中回复的 AI,他们想要能真正帮他们完成工作的 AI。
这就是为什么我深信 AI 个人 Agent 将成为一个巨大的市场。每个人都想要一个个人行政助理,即使他们从不打算随心所欲地编写任何代码。
以下是我对个人 Agent 格局的模型认知:
一端是 OpenClaw 和 Hermes。这些 Agent 存在于你的聊天应用中,完全可定制,并且开创了整个品类。我每天都用 Hermes 来处理邮件、日历、周报等事务。
中间是 Codex 和 Claude Code。这些产品背后是市值接近万亿美元的公司,它们正在迅速添加个人 Agent 功能。但它们仍然感觉首先是编码工具。
另一端是 Google。事实上,Google 已经拥有了我所有的个人上下文。我的邮件在 Gmail 里。我的日历在 Google Calendar 里。我的文档在 Google Docs 里。所有这些都保存在 Google Drive 里。
但很长一段时间以来,Gemini 应用甚至无法编辑 Google 文档,这真的很令人沮丧。
这就是为什么 Spark 是 I/O 上最让我兴奋的发布。
在 Spark 中构建一个个性化、强大且主动的 Agent
Google@Google·5月20日隆重推出 Gemini Spark
它是你的 7x24 小时个人 AI Agent,帮助你驾驭数字生活,在你的指令下代表你采取行动。
它运行在 Gemini 3.5 上,并构建在 @Antigravity 之上,因此可以轻松地在后台执行长时间运行的任务。显示更多2551.1K5.8K1.6M
Google 的愿景是通过 Spark 将 Gemini 转变为一个个性化、主动且强大的 Agent。我们来逐一理解每个词的含义:
- 个性化意味着通过 Gmail、日历、Workspace、Drive 和其他应用来了解你。
- 主动意味着告诉你什么重要,比如新的每日简报功能,能汇总展示在 Google 其他应用中需要处理的事项。
- 强大意味着能够使用 Google 的应用,也能调用任何第三方 API 或 MCP。
我特别喜欢 Spark 在云端虚拟机上运行这一点,所以你不需要一直开着电脑才能使用它。Google 需要注意的一点是:
让用户决定给 Agent 多大的控制权
我与 Gemini 应用的产品负责人 Chris 进行了一次很好的交流。我问他什么时候能期待 Spark 连接到任何 API 或 MCP,因为我现在已经可以用 OpenClaw、Codex 和 Claude Code 做到这一点了。
他的回答是,对于任何写入操作,他们可能应该先征求用户的批准。
我理解,Gemini 有 9 亿用户,他们不希望人们意外删除所有文件。
但我认为这过于保守了。
Google 应该让用户决定给自己的 Agent 多大程度的控制权,无论是每次都请求许可,还是直接绕过所有权限。当我在使用 Codex 和 Claude Code 时,我基本上总是绕过所有权限。这些 Agent 现在已经足够智能,不会做错事,而且它们只会随着时间的推移变得更好。
底线是,Google 输不起个人 Agent 这场竞赛。
竞赛 2:编码和知识工作
现在我们来谈谈编码和知识工作。
Google 在编码方面正在追赶。我认识的 AI 原生开发者大多已经转向 Codex,因为其速率限制很宽松,应用体验很好,而且 GPT-5.5 可以说是目前最好的编码模型。
与此同时,企业用户大多已经转向 Claude Code,因为 Anthropic 在把握炒作周期和推动采用方面做得非常出色。
那么 Google 的处境如何呢?我们来谈谈该公司的新模型和新工具。
模型:Gemini 3.5 Flash
首先,在这些基准测试中,Gemini 3.5 Flash 看起来是一个很棒的模型。这无疑是 Google 迄今为止最好的编码模型。
然而,价格也上涨了,尽管仍然比 GPT-5.5 和 Opus 4.7 便宜:
我认为这实际上很重要,因为企业在昂贵的前沿模型上预算不足。他们正在寻找“刚好够用”且更便宜的模型来完成大部分 Agent 工作。
工具:Antigravity
现在我们来谈谈工具。我试用了新的 Antigravity 应用,感觉非常流畅,但它看起来也与 Codex 和 Claude Code 的工具非常相似,都有一个左侧面板来与你的 Agent 对话。
我认为像这样的工具对于与 Agent 对话的个人用户来说很好,但对于团队或组织来说就不太好用了。我原本希望看到更多创新。
构建超级应用 vs. 为每个产品添加聊天
我还认为 Google 有太多工具了。例如,我不明白为什么 Google 的 AI 设计工具 Stitch 是一个完全独立于 Antigravity 的产品。当我构建一个产品时,我希望使用一个工具来完成规划、设计和编码。我不应该为此在三个不同的 Google 应用之间切换。
OpenAI 和 Anthropic 都在构建超级应用,一个工具就能处理编码、设计和知识工作。Google 应该让 Antigravity 成为那个超级应用。
这个观点可能具有争议,因为 Google 也在向 Docs、Slides、Sheets 及其所有其他知识工作产品中添加 AI 聊天功能。
但我认为未来是,我们都将只与我们的个人 Agent 和超级应用交互,来完成编码和知识工作。也许我们还会进入这些其他应用手动调整一些东西,但大部分工作将由单一的 Agent 和应用完成。
Antigravity 需要达到这个期望。它必须做到出类拔萃。
竞赛 3:从文本到多模态
好了,我对 Google 的 AI 编码努力批评了一番,所以让我以我认为 Google 真正领先的领域来结束:多模态 AI。
除非他们真的搞砸了什么,否则我觉得 Google 将会赢得消费者 AI 市场。它是唯一一个真正在构建有竞争力视频模型的美国实验室,而消费者喜欢视频。毕竟,TikTok 和 YouTube 远比任何基于文本的平台更受欢迎。目前 Google 在视频领域唯一的真正竞争对手是 Seedance 和其他不太在意版权的中国视频模型。
我也对新推出的 Omni 模型感到非常兴奋,它允许你使用任何输入来生成任何类型的输出,无论是文本、图像、音频还是视频。
但即便如此,我认为 Google 还是有太多独立的产品。例如:
为什么 Flow 不是 Gemini 的一部分?
Flow 实际上是 Google 生成图像和视频的最佳产品。你可以用它制作出一些惊人的场景。但它真的必须是一个独立的产品吗?为什么它不能直接成为默认 Gemini 应用体验的一部分呢?
Google Flow@FlowbyGoogle·5月20日在 Google Flow 中隆重推出你的 Agent 和全新的 Gemini Omni 模型。#GoogleIO
将你的 Agent 视为一个创意伙伴。它能够推理复杂的任务,在你的指导下帮助你构思、创作和编辑。
Gemini Omni 是 Gemini 的显示更多140137746128K
我的另一个小抱怨是:我认为图像和视频编辑的首要用例是家庭照片。但 Google 的安全限制不允许我使用 AI 编辑我孩子的图像或视频。我理解为什么不允许这样做,但作为父母,这仍然是我的首要用例,所以目前的安全措施感觉过于严格。
我对 Google 的文化持乐观态度
我想以我认为 Google 做得真正出色的地方来结束:Gemini 团队内部的文化。
Josh Woodward 可能是我在 Google 最喜欢的执行高管,甚至可能是在所有公司中。他一直在说一些我深信不疑的话:
- “多尝试,在构建中学习。”
- “我们只有 90 天的路线图,运气好的话可能是 120 天。”
- “我不知道我们是否还会回到为期一年的路线图。我已经有 5 年没做过那样的了。”
速度优先于计划。原型优先于演示文稿。向 Josh 汇报的 Gemini VP Chris 告诉我,他的团队将 PRD(产品需求文档)控制在一页以内,并且使用 Studio 原型而不是模拟图来主持会议。这就是在这个领域取胜所需要的。
Chris 和我
Chris 和我
Google 需要赢得的 3 场 AI 竞赛
所以总结一下,我认为 Google 需要赢得 3 场 AI 竞赛(当然,用 AI 治愈癌症也会很棒🙂):
- 聊天 → 个人 Agent。 Google 拥有数据、产品、模型,现在又有了 Spark。但他们需要信任用户,更快地在 Spark 中赋予用户更强大的能力(例如,第三方 API、计算机调用)。
- 编码 → 知识工作。 Google 在编码方面落后,但 Antigravity 是正确的赌注。围绕它进行整合,构建超级应用,并将其扩展到知识工作领域。不要仅仅为每个 Google 产品添加聊天窗口。Claude 和 ChatGPT 不应该拥有比 Gemini 更好的 Google Workspace 功能。
- 文本 → 多模态。 这是 Google 真正领先的唯一领域。他们的视频模型是最好的,而且 Google 拥有 YouTube。我对 Omni 感到兴奋,他们完全有潜力仅凭视频就赢得消费者 AI 市场。
我支持 Google。人才在那里,数据在那里,基础设施也在那里。Josh 和他的团队正在构建正确的文化。
他们只需要聚焦。
相似文章
Google I/O, Gemini Spark, Antigravity
Google I/O 推出了 Gemini Spark,一款由 Gemini 3.5 Flash 和 Antigravity 驱动的个人 AI 智能体,同时宣布 Gemini CLI 将转变为闭源的 Antigravity CLI。文章重点突出了智能体产品在提示注入和数据安全处理方面的担忧。
Gemini Spark 是谷歌对 OpenClaw 全天候 AI 代理的回应
谷歌宣布推出 Gemini Spark,这是一种主动式AI代理,可以访问个人数据并在谷歌服务和第三方应用中执行任务,将向测试者和测试版订阅用户推出。
如果谷歌都无法让AI代理变得有用,那可能没人能做到了
谷歌在I/O 2026上宣布了新的AI代理,包括Gemini Spark,旨在与其生态系统深度融合,并借助OpenClaw的成功经验,让AI助手大规模实用化。
我尝试使用了Google的全天候AI助手Gemini Spark,它实际上相当有用
对Google全新24/7代理型AI助手Gemini Spark的实际评测,该助手与Google的生产力应用集成,可帮助完成邮件摘要、购物研究和日程安排等任务。评测者认为它有用但并非革命性。
Gemini的新AI代理与谷歌的演示一样出色
谷歌新的Gemini Spark AI代理可以自主执行多步骤任务,如起草电子邮件和分析电子表格,但引发了关于成本和隐私权衡的担忧。