@petergyang: https://x.com/petergyang/status/2057608633333199096

X AI KOLs Timeline 新闻

摘要

这篇文章回顾了谷歌在I/O大会后的AI战略,指出了产品过多带来的混乱,以及Spark作为基于Gemini的个人代理的潜力。

https://t.co/bG91sDpe2g
查看原文
查看缓存全文

缓存时间: 2026/05/22 15:57

我对 Google I/O 后 AI 策略的诚实评价

本周早些时候我参加了 Google I/O,想分享一下我对 Google AI 策略中哪些行之有效、哪些存在问题的看法。

📌 可以观看我带有示例的 15 分钟视频评测,或者继续阅读下文: https://www.youtube.com/watch?v=zvMfA1VtUi0

行之有效的是 Gemini 正在快速增长。Gemini 应用现在拥有 9 亿月活跃用户,仅次于 ChatGPT,同时 Google 也推出了大量新产品。

但后者正是问题的一部分:

AI 产品太多了

看看 Google 在 I/O 上发布的所有 AI 产品。乍一看,这像是炫耀实力的表现,但我认为这也有弊端。Google 推出了太多 AI 产品,以至于用户根本不知道从何下手了:

Nathan Clark@nathanclark_·5月20日在 gemini 里,去 ai studio 创建就行。哦,那是给你个人 Google One 账户用的。工作区要用 gemini business。不,不是 gemini advanced,现在改叫 ai pro 了。除非你需要 ai ultra。哦 agent?那个其实是在 spark 里做的。不,不是 gemini api 管理的 agent,5112.4K18K1.5M

在 Gemini、AI Studio、Antigravity、Spark、Flow、Stitch、Pomelli 以及十几个其他名字之间,消费者和企业用户越来越搞不清楚该用哪个产品做什么事了。

真正重要的 AI 竞赛有 3 场

我认为 Google 不应该到处发布各种产品,而应该专注于赢得三场 AI 竞赛:

  • 将聊天进化为个人 Agent 的竞赛
  • 构建编码+知识工作超级应用的竞赛
  • 从文本扩展到多模态的竞赛

我们来逐一分析。

竞赛 1:将聊天进化为个人 Agent

我认为 AI 聊天时代即将结束。人们不想要只在聊天中回复的 AI,他们想要能真正帮他们完成工作的 AI。

这就是为什么我深信 AI 个人 Agent 将成为一个巨大的市场。每个人都想要一个个人行政助理,即使他们从不打算随心所欲地编写任何代码。

以下是我对个人 Agent 格局的模型认知:

一端是 OpenClaw 和 Hermes。这些 Agent 存在于你的聊天应用中,完全可定制,并且开创了整个品类。我每天都用 Hermes 来处理邮件、日历、周报等事务。

中间是 Codex 和 Claude Code。这些产品背后是市值接近万亿美元的公司,它们正在迅速添加个人 Agent 功能。但它们仍然感觉首先是编码工具。

另一端是 Google。事实上,Google 已经拥有了我所有的个人上下文。我的邮件在 Gmail 里。我的日历在 Google Calendar 里。我的文档在 Google Docs 里。所有这些都保存在 Google Drive 里。

但很长一段时间以来,Gemini 应用甚至无法编辑 Google 文档,这真的很令人沮丧。

这就是为什么 Spark 是 I/O 上最让我兴奋的发布。

在 Spark 中构建一个个性化、强大且主动的 Agent

Google@Google·5月20日隆重推出 Gemini Spark

它是你的 7x24 小时个人 AI Agent,帮助你驾驭数字生活,在你的指令下代表你采取行动。

它运行在 Gemini 3.5 上,并构建在 @Antigravity 之上,因此可以轻松地在后台执行长时间运行的任务。显示更多2551.1K5.8K1.6M

Google 的愿景是通过 Spark 将 Gemini 转变为一个个性化、主动且强大的 Agent。我们来逐一理解每个词的含义:

  • 个性化意味着通过 Gmail、日历、Workspace、Drive 和其他应用来了解你。
  • 主动意味着告诉你什么重要,比如新的每日简报功能,能汇总展示在 Google 其他应用中需要处理的事项。
  • 强大意味着能够使用 Google 的应用,也能调用任何第三方 API 或 MCP。

我特别喜欢 Spark 在云端虚拟机上运行这一点,所以你不需要一直开着电脑才能使用它。Google 需要注意的一点是:

让用户决定给 Agent 多大的控制权

我与 Gemini 应用的产品负责人 Chris 进行了一次很好的交流。我问他什么时候能期待 Spark 连接到任何 API 或 MCP,因为我现在已经可以用 OpenClaw、Codex 和 Claude Code 做到这一点了。

他的回答是,对于任何写入操作,他们可能应该先征求用户的批准。

我理解,Gemini 有 9 亿用户,他们不希望人们意外删除所有文件。

但我认为这过于保守了。

Google 应该让用户决定给自己的 Agent 多大程度的控制权,无论是每次都请求许可,还是直接绕过所有权限。当我在使用 Codex 和 Claude Code 时,我基本上总是绕过所有权限。这些 Agent 现在已经足够智能,不会做错事,而且它们只会随着时间的推移变得更好。

底线是,Google 输不起个人 Agent 这场竞赛。

竞赛 2:编码和知识工作

现在我们来谈谈编码和知识工作。

Google 在编码方面正在追赶。我认识的 AI 原生开发者大多已经转向 Codex,因为其速率限制很宽松,应用体验很好,而且 GPT-5.5 可以说是目前最好的编码模型。

与此同时,企业用户大多已经转向 Claude Code,因为 Anthropic 在把握炒作周期和推动采用方面做得非常出色。

那么 Google 的处境如何呢?我们来谈谈该公司的新模型和新工具。

模型:Gemini 3.5 Flash

首先,在这些基准测试中,Gemini 3.5 Flash 看起来是一个很棒的模型。这无疑是 Google 迄今为止最好的编码模型。

然而,价格也上涨了,尽管仍然比 GPT-5.5 和 Opus 4.7 便宜:

我认为这实际上很重要,因为企业在昂贵的前沿模型上预算不足。他们正在寻找“刚好够用”且更便宜的模型来完成大部分 Agent 工作。

工具:Antigravity

现在我们来谈谈工具。我试用了新的 Antigravity 应用,感觉非常流畅,但它看起来也与 Codex 和 Claude Code 的工具非常相似,都有一个左侧面板来与你的 Agent 对话。

我认为像这样的工具对于与 Agent 对话的个人用户来说很好,但对于团队或组织来说就不太好用了。我原本希望看到更多创新。

构建超级应用 vs. 为每个产品添加聊天

我还认为 Google 有太多工具了。例如,我不明白为什么 Google 的 AI 设计工具 Stitch 是一个完全独立于 Antigravity 的产品。当我构建一个产品时,我希望使用一个工具来完成规划、设计和编码。我不应该为此在三个不同的 Google 应用之间切换。

OpenAI 和 Anthropic 都在构建超级应用,一个工具就能处理编码、设计和知识工作。Google 应该让 Antigravity 成为那个超级应用。

这个观点可能具有争议,因为 Google 也在向 Docs、Slides、Sheets 及其所有其他知识工作产品中添加 AI 聊天功能。

但我认为未来是,我们都将只与我们的个人 Agent 和超级应用交互,来完成编码和知识工作。也许我们还会进入这些其他应用手动调整一些东西,但大部分工作将由单一的 Agent 和应用完成。

Antigravity 需要达到这个期望。它必须做到出类拔萃。

竞赛 3:从文本到多模态

好了,我对 Google 的 AI 编码努力批评了一番,所以让我以我认为 Google 真正领先的领域来结束:多模态 AI。

除非他们真的搞砸了什么,否则我觉得 Google 将会赢得消费者 AI 市场。它是唯一一个真正在构建有竞争力视频模型的美国实验室,而消费者喜欢视频。毕竟,TikTok 和 YouTube 远比任何基于文本的平台更受欢迎。目前 Google 在视频领域唯一的真正竞争对手是 Seedance 和其他不太在意版权的中国视频模型。

我也对新推出的 Omni 模型感到非常兴奋,它允许你使用任何输入来生成任何类型的输出,无论是文本、图像、音频还是视频。

但即便如此,我认为 Google 还是有太多独立的产品。例如:

为什么 Flow 不是 Gemini 的一部分?

Flow 实际上是 Google 生成图像和视频的最佳产品。你可以用它制作出一些惊人的场景。但它真的必须是一个独立的产品吗?为什么它不能直接成为默认 Gemini 应用体验的一部分呢?

Google Flow@FlowbyGoogle·5月20日在 Google Flow 中隆重推出你的 Agent 和全新的 Gemini Omni 模型。#GoogleIO

将你的 Agent 视为一个创意伙伴。它能够推理复杂的任务,在你的指导下帮助你构思、创作和编辑。

Gemini Omni 是 Gemini 的显示更多140137746128K

我的另一个小抱怨是:我认为图像和视频编辑的首要用例是家庭照片。但 Google 的安全限制不允许我使用 AI 编辑我孩子的图像或视频。我理解为什么不允许这样做,但作为父母,这仍然是我的首要用例,所以目前的安全措施感觉过于严格。

我对 Google 的文化持乐观态度

我想以我认为 Google 做得真正出色的地方来结束:Gemini 团队内部的文化。

Josh Woodward 可能是我在 Google 最喜欢的执行高管,甚至可能是在所有公司中。他一直在说一些我深信不疑的话:

  • “多尝试,在构建中学习。”
  • “我们只有 90 天的路线图,运气好的话可能是 120 天。”
  • “我不知道我们是否还会回到为期一年的路线图。我已经有 5 年没做过那样的了。”

速度优先于计划。原型优先于演示文稿。向 Josh 汇报的 Gemini VP Chris 告诉我,他的团队将 PRD(产品需求文档)控制在一页以内,并且使用 Studio 原型而不是模拟图来主持会议。这就是在这个领域取胜所需要的。

Chris 和我

Chris 和我

Google 需要赢得的 3 场 AI 竞赛

所以总结一下,我认为 Google 需要赢得 3 场 AI 竞赛(当然,用 AI 治愈癌症也会很棒🙂):

  • 聊天 → 个人 Agent。 Google 拥有数据、产品、模型,现在又有了 Spark。但他们需要信任用户,更快地在 Spark 中赋予用户更强大的能力(例如,第三方 API、计算机调用)。
  • 编码 → 知识工作。 Google 在编码方面落后,但 Antigravity 是正确的赌注。围绕它进行整合,构建超级应用,并将其扩展到知识工作领域。不要仅仅为每个 Google 产品添加聊天窗口。Claude 和 ChatGPT 不应该拥有比 Gemini 更好的 Google Workspace 功能。
  • 文本 → 多模态。 这是 Google 真正领先的唯一领域。他们的视频模型是最好的,而且 Google 拥有 YouTube。我对 Omni 感到兴奋,他们完全有潜力仅凭视频就赢得消费者 AI 市场。

我支持 Google。人才在那里,数据在那里,基础设施也在那里。Josh 和他的团队正在构建正确的文化。

他们只需要聚焦。

相似文章

Google I/O, Gemini Spark, Antigravity

Simon Willison's Blog

Google I/O 推出了 Gemini Spark,一款由 Gemini 3.5 Flash 和 Antigravity 驱动的个人 AI 智能体,同时宣布 Gemini CLI 将转变为闭源的 Antigravity CLI。文章重点突出了智能体产品在提示注入和数据安全处理方面的担忧。