@GoogleDeepMind: 我们正在发布 Gemini Omni：这是我们迈向能够从任何内容创造任何内容的模型的第一步——从视频开始…

X AI KOLs 2026/05/19 17:17 模型

gemini-omni video-generation multimodal ai-model generative-ai google-deepmind

摘要

Google DeepMind 宣布推出 Gemini Omni，这是一种新型模型，它将 Gemini 的智能与生成式媒体系统相结合，能够从任何输入创建视频，标志着多模态人工智能的重大进步。

我们正在发布 Gemini Omni：这是我们迈向能够从任何内容创造任何内容的模型的第一步——从视频开始。它将 Gemini 的智能与我们的生成式媒体系统相结合——代表着在理解世界、多模态和编辑方面的一次飞跃 🧵 https://t.co/GAtqzr0VIV

查看原文

查看缓存全文

缓存时间: 2026/05/19 18:50

我们正在推出Gemini Omni：这是迈向能够从任何事物创造任何事物的模型的第一步——从视频开始。

它结合了Gemini的智能与我们的生成式媒体系统——代表在理解世界、多模态和编辑方面的一次飞跃。

Omni将改进的物理理解与Gemini的历史、生物学和文化知识相结合，弥合了从照片级真实感到有意义故事叙述之间的差距。

行为产生后果，环境对事件做出反应，叙事合乎逻辑地演变。

只需定义一次角色，然后将其放入任何场景中，它们将在地点、动作和光照上保持一致。

通过使用输入参考或直接用自然语言描述，应用风格、动作或效果。

你甚至可以通过向Gemini Omni提问来重新构想所拍摄视频中的动作。

即时转变你的世界——改变环境、添加新物体，或创造完全意想不到的东西。

你可以在 @GeminiApp、@FlowbyGoogle 和 @YouTube Shorts 中试用Gemini Omni Flash——Omni系列中的首个模型。

在接下来几周，我们还将通过API推出它。#GoogleIO

相似文章

YouTube AI Channels

Google 推出 Gemini Omni，一种新的多模态 AI 模型，能够从任何输入类型处理并生成跨越文本、图像、音频和视频的内容。

Hacker News Top

Gemini Omni 是 Google DeepMind 推出的新型 AI 模型，融合了推理与创意能力，支持多模态理解、视频编辑和内容生成，并内置安全措施和数字水印技术。

TechCrunch AI

Google 发布了 Gemini Omni，这是一个多模态模型系列，能够从图像、音频和文本生成视频，跨输入进行推理以产生一致的高质量输出。首个模型 Gemini Omni Flash 将在 Google I/O 上向 Gemini 应用、YouTube Shorts 和 Flow 推出。

X AI KOLs

Google DeepMind 发布了 Gemini Omni，一款用于创作故事的新AI模型。

Product Hunt

Gemini Omni 是一款新的人工智能产品，可以从任何输入开始创作，首先从视频开始，正如在 Product Hunt 上所展示的。