Google Gemini Omni 视频模型在 I/O 大会前夕亮相(2 分钟阅读)

TLDR AI 新闻

摘要

在 Google I/O 大会前夕,Google 的 Gemini Omni 视频模型已进入有限测试阶段。尽管其原始生成保真度落后于竞争对手,但该模型展现了强大的视频编辑能力。

Google 的 Gemini Omni 视频模型在 I/O 大会前夕亮相,将视频重混和编辑功能直接集成到聊天界面中。早期反馈突显了其强大的编辑能力,例如去除水印和替换物体,不过与字节跳动的 Seedance 2 等竞争对手相比,其原始电影质感稍显逊色。该模型可能会以分层版本发布,例如 Flash 和 Pro 版本,作为在 Gemini 下统一多种模态的更广泛战略的一部分。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/13 00:20

# Google 的 Gemini Omni 视频模型在 I/O 大会亮相前曝光 来源:https://www.testingcatalog.com/googles-gemini-omni-video-model-surfaces-ahead-of-i-o-debut/ 周末期间,关于 Google 即将推出的 Gemini Omni 视频模型(https://www.testingcatalog.com/google-is-testing-new-omni-model-for-video-generation-ahead-of-i-o/)的最新信号浮出水面,Reddit 用户发布了修订后的 Gemini 界面截图,其中暴露了新的模型卡片。描述中写道:“使用 Gemini Omni 创作:认识我们的新视频模型,混剪视频、在聊天中直接编辑、尝试模板等”,这似乎证实了 Google 在下周开发者大会前一直筹备的、传闻已久的统一方法。此次发布看起来要么是意外,要么是有限 A/B 测试的一部分。 > 示例视频和早期反馈 👀 > 我不撒谎,这是我见过的最好的视频模型之一,也许不是*最*好的,但表现非常强劲。我对提示遵循度印象深刻(除了那个缺少中心物品的镜头),模型...pic.twitter.com/sG58DXlswL (https://t.co/sG58DXlswL?ref=testingcatalog.com) — 🚨 AI News \| TestingCatalog \(@testingcatalog\)May 11, 2026 (https://twitter.com/testingcatalog/status/2053718756799467735?ref_src=twsrc%5Etfw&ref=testingcatalog.com) 除了模型卡片,用户还在设置中发现了一个新的“使用限制”标签页,多人报告称视频生成迅速消耗积分,暗示存在一种类似 Google 在 Gemini 各表面测试的计量系统。早期产出引发了混合反应。在原始生成保真度方面,Omni 似乎落后于 ByteDance 的 Seedance 2,观众指出其电影质感落后于当前的基准领先者。该模型突出的地方在于编辑:去除水印、在片段中替换对象,以及通过聊天指令重写场景,所有这些在首次公开亮相时都表现得异常出色。 > GOOGLE 🔥:Google 即将推出的 Gemini Omni 视频模型预计在视频编辑方面要先进得多,能够完成诸如去除水印、替换视频中的对象等任务。Google 也很可能发布该模型的 2 个版本,...https://t.co/OJUOBUXjOw?ref=testingcatalog.compic.twitter.com/lT9sDlI8Lu (https://t.co/lT9sDlI8Lu?ref=testingcatalog.com) — 🚨 AI News \| TestingCatalog \(@testingcatalog\)May 11, 2026 (https://twitter.com/testingcatalog/status/2053857806374064496?ref_src=twsrc%5Etfw&ref=testingcatalog.com) **这一模式与 Nano Banana 如出一辙,后者作为 Gemini 的原生图像模型发布,初始生成分数平平,但在编辑排行榜上名列前茅,随后升级为前沿图像系统。**Google 似乎对视频采用了相同的策略,优先考虑在 Gemini(https://www.testingcatalog.com/tag/gemini/)下进行模态统一,而非在发布初期追求原始质量的领先。还有迹象表明,Omni 将以分层变体发布,可能是 Flash 和 Pro 版本,目前流传的产出很可能来自 Flash 层级。 > Google 一直在为其即将发布的 Gemini Omni 模型做准备。> Gemini Omni 模型也将可通过 API 使用 > 该模型将被视为 Agent,类似于 AI Studio 上的 Deep Research,很快就会实现吗?👀 P.S. 只是提醒一下,Nano Banana 1 并没有比...pic.twitter.com/QnkbQ9WRQm (https://t.co/QnkbQ9WRQm?ref=testingcatalog.com) — 🚨 AI News \| TestingCatalog \(@testingcatalog\)May 11, 2026 (https://twitter.com/testingcatalog/status/2053924078537318681?ref_src=twsrc%5Etfw&ref=testingcatalog.com) 这一时机与 5 月 19 日和 20 日的 Google I/O 大会完美契合,Google 历来有在此类活动中揭幕其最雄心勃勃的 AI 转变的传统。短暂的会前窗口加上受控泄露,使 Google 能够在主题演讲前收集反应并塑造叙事。 来源 (https://www.reddit.com/r/GeminiAI/comments/1t9jgwh/gemini_omni_new_video_model/?ref=testingcatalog.com)

相似文章

Google 所有新 AI 更新一网打尽(NotebookLM、Gemini 等)

YouTube AI Channels

Google 推出了一系列重要的 AI 更新,最引人注目的是 NotebookLM 新增的由 Gemini 3 Pro 驱动的电影级视频生成功能以及代码驱动的动画效果。此次更新还包括 Gemini 的音乐创作能力、增强的演示文稿编辑功能,以及让免费用户更便捷地访问各种模型。

推出 Gemini 2.5 计算机使用模型

Google DeepMind Blog

Google 通过 Gemini API 发布 Gemini 2.5 计算机使用模型,使开发者能够构建可通过点击、输入和滚动与用户界面交互的 AI 代理。该模型在网页和移动控制基准测试中表现优异,延迟更低,现已在 Google AI Studio 和 Vertex AI 中提供预览版。

Gemini 2.5:我们最聪慧的模型进一步升级

Google DeepMind Blog

谷歌发布 Gemini 2.5 系列更新,包括性能改进的 2.5 Pro 和 Flash 模型,新增功能包括 Deep Think(增强型推理模式)、原生音频输出和通过 Project Mariner 实现的计算机使用能力。这些模型现已在 WebDev Arena 和 LMArena 排行榜中领先。