谷歌的Gemini Omni可以在黑板上写数学公式。AI视频领域最棘手的问题可能正在变得容易解决。

Reddit r/ArtificialInteligence 模型

摘要

来自谷歌未发布的Gemini Omni模型的泄露视频显示,该模型在黑板上渲染文字的效果令人印象深刻,但在其他提示中仍存在一致性问题。该模型似乎是Veo的扩展,预计将在Google I/O大会上正式发布。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/05/14 20:36

# Google 的 Gemini Omni 能在黑板上写数学公式。AI 视频的最大难题可能正在变简单 - Firethering 来源: https://firethering.com/google-gemini-omni-video-model/ \- 广告 \- 谷歌尚未宣布 Gemini Omni。一位 Reddit 用户无意中发现了它。 有人打开了 Gemini 应用,弹出了一个他们从未听说过的模型的提示,然后开始生成视频。生成的内容在过去几天里一直在 Reddit 上流传,主要是因为其中一段剪辑。 黑板视频就是原因所在。 一位教授用粉笔完整地写出了一个数学证明,一边写一边讲解,文字清晰可读,讲述自然,物理效果也基本可信。AI 视频从未能很好地处理文字。但这个做到了。而且不仅仅是文字,音频、动作、真实感都达到了一个令人感到不安的水平,这种不安与通常的 AI 视频演示截然不同。 这是一次泄露。谷歌对此只字未提。谷歌 I/O 大会下周就要召开。但无论 Omni 是什么,早期的结果都表明一些事情发生了转变。 ## **关于 Omni 我们了解什么** 官方信息并不多。该用户在 Gemini 应用中收到一个弹窗,提示他们“使用 Gemini Omni 创作”,描述称这是一个新的视频生成模型,具备重新混合视频、直接在聊天中编辑以及使用模板的能力。这就是全部的官方描述。谷歌没有确认任何东西存在。 Max Weinbach 解析了元数据,发现 Omni 似乎是 Veo 的扩展,而不是从零构建的。这说得通。谷歌开发 Veo 已经有一段时间了,这里产出的结果相比 Veo 之前生成的内容有了显著进步,而不是完全不同的方向。 谷歌 I/O 大会下周召开。几乎可以肯定那时会正式发布,我们也会得到关于 Omni 是什么以及它如何融入更广泛的 Gemini 产品线的具体细节。 ## **它仍然不足之处** 黑板结果令人印象深刻。但意大利面测试则是另一回事。 原来的 Will Smith 提示被 Omni 的防护栏拦截了,因此用户重新编写了提示:两个男人在海边餐厅,白色桌布,走向餐桌并一边吃意大利面一边交谈。 意大利面凭空出现在几秒钟前还是空的盘子里。吃面的动作与咬面的节奏不匹配。黑板视频基本避免了的不一致之处在这里迅速堆积。另一位 Reddit 用户用字节跳动的 Seedance 2 运行了相同的提示,得到了明显更一致的结果。 所以 Omni 并非在所有方面都领先。文本处理确实是新的突破。但在复杂交互的物理真实感方面,它仍然有和其他模型类似的粗糙边缘。 ##### **你可能喜欢:**daVinci-MagiHuman 终于让开源 AI 视频感觉真实 (https://firethering.com/davinci-magihuman-open-source-ai-video-model/) ## ****大多数人忽略的使用问题**** 那两段生成内容——黑板的和意大利面的——消耗了该用户在谷歌 AI Pro 计划上每日配额的 86%。同一天还有一些 Gemini Flash 的使用,所以数字并非完全精确,但方向是明确的。在 Omni 上生成视频在配额方面非常昂贵,而这将是现在没人讨论、但一旦谷歌正式发布、人们在头两个提示就用完限额时每个人都会讨论的话题。 ## **接下来会发生什么** 在 OpenAI 今年早些时候关停 Sora 之后,谷歌表示视频业务会继续存在。Omni 看起来是对这一承诺的证明。仅黑板结果就表明在文本渲染问题上已经发生了真正的转变,尽管该模型目前还不能在所有提示下都保持一致。 下周我们就会知道全貌。在那之前,黑板视频值得多看两遍。

相似文章

Google 所有新 AI 更新一网打尽(NotebookLM、Gemini 等)

YouTube AI Channels

Google 推出了一系列重要的 AI 更新,最引人注目的是 NotebookLM 新增的由 Gemini 3 Pro 驱动的电影级视频生成功能以及代码驱动的动画效果。此次更新还包括 Gemini 的音乐创作能力、增强的演示文稿编辑功能,以及让免费用户更便捷地访问各种模型。