什么是 Gemini Omni?
摘要
Gemini Omni 是一款谷歌AI工具,支持通过自然语言指令、草图和多轮对话来编辑视频,实现场景、物体和风格的转换。
暂无内容
查看缓存全文
缓存时间: 2026/05/20 06:56
**TL;DR:** Gemini Omni 是谷歌的一款 AI 工具,让你通过自然语言指令来转换视频片段——改变场景、物体、风格等,甚至可以用草图作为指令。
## 什么是 Gemini Omni?
Gemini Omni 是一项全新的视频编辑能力,适用于你自己的拍摄素材。正如 Gemini Omni 团队 Sami 所说,你可以“拍摄自己的视频,然后随心所欲地改变世界”。该工具能够理解如何根据简单的文本提示、多轮对话,甚至手绘草图来重新诠释和修改视频内容。
## 它是如何工作的?
核心上,Gemini Omni 接收一段原始视频片段并对其进行重新构想。一个例子:一个人只是在空中画圈。借助 Omni,同样的素材会变得完全不同——你可以编辑特定部分,或者改变一切。“你的视频可以变成你想象中的任何样子,”Sami 说道。
另一个演示显示有人触摸镜子。使用 Omni,他们可以“重新想象接下来会发生什么”——编辑动作、改变风格,或者把自己变成一个全新的角色。基于语言指令的多轮操作可以实现精细化控制。
## 实际演示案例
### 小提琴手变身
以一位小提琴手演奏的视频为例,你可以:
- 改变背景环境
- 让小提琴隐形
- 改变摄像机角度
### 基于草图的编辑
你可以给 Omni 一张带有视觉指令的草图,而“它知道如何将其融入整个视频”。由于 Omni 建立在 Gemini 的世界知识之上,它能做到之前模型难以实现的事——例如,仅凭一段视频片段,就能为字母表中的每个字母生成对应的物体。
## 功能特性
- **修改特定部分** – 只更改一个元素,其余保持不变。
- **改变一切** – 彻底转换场景和主体。
- **编辑动作** – 替换某个动作或手势。
- **改变风格** – 调整视觉美学(例如从写实转为卡通)。
- **多轮指令** – 通过连续指令不断完善视频。
- **草图输入** – 用图画作为转换的指导。
## 亲自尝试
这些示例只是冰山一角。Sami 邀请用户亲自实验:“今天就试试吧。你会用它做什么?在下方评论区告诉我们。”
**来源:** 什么是 Gemini Omni? - YouTube (https://www.youtube.com/watch?v=uW4B6ziQqvY)
相似文章
Gemini Omni
Gemini Omni 是 Google DeepMind 推出的新型 AI 模型,融合了推理与创意能力,支持多模态理解、视频编辑和内容生成,并内置安全措施和数字水印技术。
介绍 Gemini Omni:从任意内容生成任意内容
Google 推出 Gemini Omni,一种新的多模态 AI 模型,能够从任何输入类型处理并生成跨越文本、图像、音频和视频的内容。
How to Edit & Create Videos with Gemini Omni
Gemini Omni 是 Google 推出的视频编辑 AI 模型,能够理解视频内容、物理规律,并自动添加个性化效果。
Google 的 Gemini Omni 将图像、音频和文本转化为视频——而这仅仅是个开始
Google 发布了 Gemini Omni,这是一个多模态模型系列,能够从图像、音频和文本生成视频,跨输入进行推理以产生一致的高质量输出。首个模型 Gemini Omni Flash 将在 Google I/O 上向 Gemini 应用、YouTube Shorts 和 Flow 推出。
Gemini Omni
Gemini Omni 是一款新的人工智能产品,可以从任何输入开始创作,首先从视频开始,正如在 Product Hunt 上所展示的。