@petergyang: https://x.com/petergyang/status/2057608633333199096

X AI KOLs Timeline 2026/05/21 23:45 新闻

google-ai gemini ai-strategy google-io spark personal-agents

摘要

这篇文章回顾了谷歌在I/O大会后的AI战略，指出了产品过多带来的混乱，以及Spark作为基于Gemini的个人代理的潜力。

https://t.co/bG91sDpe2g

查看原文

查看缓存全文

缓存时间: 2026/05/22 15:57

我对 Google I/O 后 AI 策略的诚实评价

本周早些时候我参加了 Google I/O，想分享一下我对 Google AI 策略中哪些行之有效、哪些存在问题的看法。

📌 可以观看我带有示例的 15 分钟视频评测，或者继续阅读下文： https://www.youtube.com/watch?v=zvMfA1VtUi0

行之有效的是 Gemini 正在快速增长。Gemini 应用现在拥有 9 亿月活跃用户，仅次于 ChatGPT，同时 Google 也推出了大量新产品。

但后者正是问题的一部分：

AI 产品太多了

看看 Google 在 I/O 上发布的所有 AI 产品。乍一看，这像是炫耀实力的表现，但我认为这也有弊端。Google 推出了太多 AI 产品，以至于用户根本不知道从何下手了：

Nathan Clark@nathanclark_·5月20日在 gemini 里，去 ai studio 创建就行。哦，那是给你个人 Google One 账户用的。工作区要用 gemini business。不，不是 gemini advanced，现在改叫 ai pro 了。除非你需要 ai ultra。哦 agent？那个其实是在 spark 里做的。不，不是 gemini api 管理的 agent，5112.4K18K1.5M

在 Gemini、AI Studio、Antigravity、Spark、Flow、Stitch、Pomelli 以及十几个其他名字之间，消费者和企业用户越来越搞不清楚该用哪个产品做什么事了。

真正重要的 AI 竞赛有 3 场

我认为 Google 不应该到处发布各种产品，而应该专注于赢得三场 AI 竞赛：

将聊天进化为个人 Agent 的竞赛
构建编码+知识工作超级应用的竞赛
从文本扩展到多模态的竞赛

我们来逐一分析。

竞赛 1：将聊天进化为个人 Agent

我认为 AI 聊天时代即将结束。人们不想要只在聊天中回复的 AI，他们想要能真正帮他们完成工作的 AI。

这就是为什么我深信 AI 个人 Agent 将成为一个巨大的市场。每个人都想要一个个人行政助理，即使他们从不打算随心所欲地编写任何代码。

以下是我对个人 Agent 格局的模型认知：

一端是 OpenClaw 和 Hermes。这些 Agent 存在于你的聊天应用中，完全可定制，并且开创了整个品类。我每天都用 Hermes 来处理邮件、日历、周报等事务。

中间是 Codex 和 Claude Code。这些产品背后是市值接近万亿美元的公司，它们正在迅速添加个人 Agent 功能。但它们仍然感觉首先是编码工具。

另一端是 Google。事实上，Google 已经拥有了我所有的个人上下文。我的邮件在 Gmail 里。我的日历在 Google Calendar 里。我的文档在 Google Docs 里。所有这些都保存在 Google Drive 里。

但很长一段时间以来，Gemini 应用甚至无法编辑 Google 文档，这真的很令人沮丧。

这就是为什么 Spark 是 I/O 上最让我兴奋的发布。

在 Spark 中构建一个个性化、强大且主动的 Agent

Google@Google·5月20日隆重推出 Gemini Spark

它是你的 7x24 小时个人 AI Agent，帮助你驾驭数字生活，在你的指令下代表你采取行动。

它运行在 Gemini 3.5 上，并构建在 @Antigravity 之上，因此可以轻松地在后台执行长时间运行的任务。显示更多2551.1K5.8K1.6M

Google 的愿景是通过 Spark 将 Gemini 转变为一个个性化、主动且强大的 Agent。我们来逐一理解每个词的含义：

个性化意味着通过 Gmail、日历、Workspace、Drive 和其他应用来了解你。
主动意味着告诉你什么重要，比如新的每日简报功能，能汇总展示在 Google 其他应用中需要处理的事项。
强大意味着能够使用 Google 的应用，也能调用任何第三方 API 或 MCP。

我特别喜欢 Spark 在云端虚拟机上运行这一点，所以你不需要一直开着电脑才能使用它。Google 需要注意的一点是：

让用户决定给 Agent 多大的控制权

我与 Gemini 应用的产品负责人 Chris 进行了一次很好的交流。我问他什么时候能期待 Spark 连接到任何 API 或 MCP，因为我现在已经可以用 OpenClaw、Codex 和 Claude Code 做到这一点了。

他的回答是，对于任何写入操作，他们可能应该先征求用户的批准。

我理解，Gemini 有 9 亿用户，他们不希望人们意外删除所有文件。

但我认为这过于保守了。

Google 应该让用户决定给自己的 Agent 多大程度的控制权，无论是每次都请求许可，还是直接绕过所有权限。当我在使用 Codex 和 Claude Code 时，我基本上总是绕过所有权限。这些 Agent 现在已经足够智能，不会做错事，而且它们只会随着时间的推移变得更好。

底线是，Google 输不起个人 Agent 这场竞赛。

竞赛 2：编码和知识工作

现在我们来谈谈编码和知识工作。

Google 在编码方面正在追赶。我认识的 AI 原生开发者大多已经转向 Codex，因为其速率限制很宽松，应用体验很好，而且 GPT-5.5 可以说是目前最好的编码模型。

与此同时，企业用户大多已经转向 Claude Code，因为 Anthropic 在把握炒作周期和推动采用方面做得非常出色。

那么 Google 的处境如何呢？我们来谈谈该公司的新模型和新工具。

模型：Gemini 3.5 Flash

首先，在这些基准测试中，Gemini 3.5 Flash 看起来是一个很棒的模型。这无疑是 Google 迄今为止最好的编码模型。

然而，价格也上涨了，尽管仍然比 GPT-5.5 和 Opus 4.7 便宜：

我认为这实际上很重要，因为企业在昂贵的前沿模型上预算不足。他们正在寻找“刚好够用”且更便宜的模型来完成大部分 Agent 工作。

工具：Antigravity

现在我们来谈谈工具。我试用了新的 Antigravity 应用，感觉非常流畅，但它看起来也与 Codex 和 Claude Code 的工具非常相似，都有一个左侧面板来与你的 Agent 对话。

我认为像这样的工具对于与 Agent 对话的个人用户来说很好，但对于团队或组织来说就不太好用了。我原本希望看到更多创新。

构建超级应用 vs. 为每个产品添加聊天

我还认为 Google 有太多工具了。例如，我不明白为什么 Google 的 AI 设计工具 Stitch 是一个完全独立于 Antigravity 的产品。当我构建一个产品时，我希望使用一个工具来完成规划、设计和编码。我不应该为此在三个不同的 Google 应用之间切换。

OpenAI 和 Anthropic 都在构建超级应用，一个工具就能处理编码、设计和知识工作。Google 应该让 Antigravity 成为那个超级应用。

这个观点可能具有争议，因为 Google 也在向 Docs、Slides、Sheets 及其所有其他知识工作产品中添加 AI 聊天功能。

但我认为未来是，我们都将只与我们的个人 Agent 和超级应用交互，来完成编码和知识工作。也许我们还会进入这些其他应用手动调整一些东西，但大部分工作将由单一的 Agent 和应用完成。

Antigravity 需要达到这个期望。它必须做到出类拔萃。

竞赛 3：从文本到多模态

好了，我对 Google 的 AI 编码努力批评了一番，所以让我以我认为 Google 真正领先的领域来结束：多模态 AI。

除非他们真的搞砸了什么，否则我觉得 Google 将会赢得消费者 AI 市场。它是唯一一个真正在构建有竞争力视频模型的美国实验室，而消费者喜欢视频。毕竟，TikTok 和 YouTube 远比任何基于文本的平台更受欢迎。目前 Google 在视频领域唯一的真正竞争对手是 Seedance 和其他不太在意版权的中国视频模型。

我也对新推出的 Omni 模型感到非常兴奋，它允许你使用任何输入来生成任何类型的输出，无论是文本、图像、音频还是视频。

但即便如此，我认为 Google 还是有太多独立的产品。例如：

为什么 Flow 不是 Gemini 的一部分？

Flow 实际上是 Google 生成图像和视频的最佳产品。你可以用它制作出一些惊人的场景。但它真的必须是一个独立的产品吗？为什么它不能直接成为默认 Gemini 应用体验的一部分呢？

Google Flow@FlowbyGoogle·5月20日在 Google Flow 中隆重推出你的 Agent 和全新的 Gemini Omni 模型。#GoogleIO

将你的 Agent 视为一个创意伙伴。它能够推理复杂的任务，在你的指导下帮助你构思、创作和编辑。

Gemini Omni 是 Gemini 的显示更多140137746128K

我的另一个小抱怨是：我认为图像和视频编辑的首要用例是家庭照片。但 Google 的安全限制不允许我使用 AI 编辑我孩子的图像或视频。我理解为什么不允许这样做，但作为父母，这仍然是我的首要用例，所以目前的安全措施感觉过于严格。

我对 Google 的文化持乐观态度

我想以我认为 Google 做得真正出色的地方来结束：Gemini 团队内部的文化。

Josh Woodward 可能是我在 Google 最喜欢的执行高管，甚至可能是在所有公司中。他一直在说一些我深信不疑的话：

“多尝试，在构建中学习。”
“我们只有 90 天的路线图，运气好的话可能是 120 天。”
“我不知道我们是否还会回到为期一年的路线图。我已经有 5 年没做过那样的了。”

速度优先于计划。原型优先于演示文稿。向 Josh 汇报的 Gemini VP Chris 告诉我，他的团队将 PRD（产品需求文档）控制在一页以内，并且使用 Studio 原型而不是模拟图来主持会议。这就是在这个领域取胜所需要的。

Chris 和我

Google 需要赢得的 3 场 AI 竞赛

所以总结一下，我认为 Google 需要赢得 3 场 AI 竞赛（当然，用 AI 治愈癌症也会很棒🙂）：

聊天 → 个人 Agent。 Google 拥有数据、产品、模型，现在又有了 Spark。但他们需要信任用户，更快地在 Spark 中赋予用户更强大的能力（例如，第三方 API、计算机调用）。
编码 → 知识工作。 Google 在编码方面落后，但 Antigravity 是正确的赌注。围绕它进行整合，构建超级应用，并将其扩展到知识工作领域。不要仅仅为每个 Google 产品添加聊天窗口。Claude 和 ChatGPT 不应该拥有比 Gemini 更好的 Google Workspace 功能。
文本 → 多模态。 这是 Google 真正领先的唯一领域。他们的视频模型是最好的，而且 Google 拥有 YouTube。我对 Omni 感到兴奋，他们完全有潜力仅凭视频就赢得消费者 AI 市场。

我支持 Google。人才在那里，数据在那里，基础设施也在那里。Josh 和他的团队正在构建正确的文化。

他们只需要聚焦。

@petergyang: https://x.com/petergyang/status/2057608633333199096

我对 Google I/O 后 AI 策略的诚实评价

AI 产品太多了

真正重要的 AI 竞赛有 3 场

竞赛 1：将聊天进化为个人 Agent

在 Spark 中构建一个个性化、强大且主动的 Agent

让用户决定给 Agent 多大的控制权

竞赛 2：编码和知识工作

模型：Gemini 3.5 Flash

工具：Antigravity

构建超级应用 vs. 为每个产品添加聊天

竞赛 3：从文本到多模态

为什么 Flow 不是 Gemini 的一部分？

我对 Google 的文化持乐观态度

Google 需要赢得的 3 场 AI 竞赛

相似文章

Google I/O, Gemini Spark, Antigravity

Gemini Spark 是谷歌对 OpenClaw 全天候 AI 代理的回应

如果谷歌都无法让AI代理变得有用，那可能没人能做到了

我尝试使用了Google的全天候AI助手Gemini Spark，它实际上相当有用

Gemini的新AI代理与谷歌的演示一样出色

提交意见反馈