谷歌的Gemini Omni可以在黑板上写数学公式。AI视频领域最棘手的问题可能正在变得容易解决。

Reddit r/ArtificialInteligence 2026/05/14 19:54 模型

google gemini-omni video-generation text-rendering leak veo ai-model

摘要

来自谷歌未发布的Gemini Omni模型的泄露视频显示，该模型在黑板上渲染文字的效果令人印象深刻，但在其他提示中仍存在一致性问题。该模型似乎是Veo的扩展，预计将在Google I/O大会上正式发布。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/05/14 20:36

# Google 的 Gemini Omni 能在黑板上写数学公式。AI 视频的最大难题可能正在变简单 - Firethering 来源: https://firethering.com/google-gemini-omni-video-model/ \- 广告 \- 谷歌尚未宣布 Gemini Omni。一位 Reddit 用户无意中发现了它。有人打开了 Gemini 应用，弹出了一个他们从未听说过的模型的提示，然后开始生成视频。生成的内容在过去几天里一直在 Reddit 上流传，主要是因为其中一段剪辑。黑板视频就是原因所在。一位教授用粉笔完整地写出了一个数学证明，一边写一边讲解，文字清晰可读，讲述自然，物理效果也基本可信。AI 视频从未能很好地处理文字。但这个做到了。而且不仅仅是文字，音频、动作、真实感都达到了一个令人感到不安的水平，这种不安与通常的 AI 视频演示截然不同。这是一次泄露。谷歌对此只字未提。谷歌 I/O 大会下周就要召开。但无论 Omni 是什么，早期的结果都表明一些事情发生了转变。 ## **关于 Omni 我们了解什么** 官方信息并不多。该用户在 Gemini 应用中收到一个弹窗，提示他们“使用 Gemini Omni 创作”，描述称这是一个新的视频生成模型，具备重新混合视频、直接在聊天中编辑以及使用模板的能力。这就是全部的官方描述。谷歌没有确认任何东西存在。 Max Weinbach 解析了元数据，发现 Omni 似乎是 Veo 的扩展，而不是从零构建的。这说得通。谷歌开发 Veo 已经有一段时间了，这里产出的结果相比 Veo 之前生成的内容有了显著进步，而不是完全不同的方向。谷歌 I/O 大会下周召开。几乎可以肯定那时会正式发布，我们也会得到关于 Omni 是什么以及它如何融入更广泛的 Gemini 产品线的具体细节。 ## **它仍然不足之处** 黑板结果令人印象深刻。但意大利面测试则是另一回事。原来的 Will Smith 提示被 Omni 的防护栏拦截了，因此用户重新编写了提示：两个男人在海边餐厅，白色桌布，走向餐桌并一边吃意大利面一边交谈。意大利面凭空出现在几秒钟前还是空的盘子里。吃面的动作与咬面的节奏不匹配。黑板视频基本避免了的不一致之处在这里迅速堆积。另一位 Reddit 用户用字节跳动的 Seedance 2 运行了相同的提示，得到了明显更一致的结果。所以 Omni 并非在所有方面都领先。文本处理确实是新的突破。但在复杂交互的物理真实感方面，它仍然有和其他模型类似的粗糙边缘。 ##### **你可能喜欢：**daVinci-MagiHuman 终于让开源 AI 视频感觉真实 (https://firethering.com/davinci-magihuman-open-source-ai-video-model/) ## ****大多数人忽略的使用问题**** 那两段生成内容——黑板的和意大利面的——消耗了该用户在谷歌 AI Pro 计划上每日配额的 86%。同一天还有一些 Gemini Flash 的使用，所以数字并非完全精确，但方向是明确的。在 Omni 上生成视频在配额方面非常昂贵，而这将是现在没人讨论、但一旦谷歌正式发布、人们在头两个提示就用完限额时每个人都会讨论的话题。 ## **接下来会发生什么** 在 OpenAI 今年早些时候关停 Sora 之后，谷歌表示视频业务会继续存在。Omni 看起来是对这一承诺的证明。仅黑板结果就表明在文本渲染问题上已经发生了真正的转变，尽管该模型目前还不能在所有提示下都保持一致。下周我们就会知道全貌。在那之前，黑板视频值得多看两遍。

谷歌的Gemini Omni可以在黑板上写数学公式。AI视频领域最棘手的问题可能正在变得容易解决。

相似文章

Google的Gemini Omni可生成文字极其精准的视频😳

Google Gemini Omni 视频模型在 I/O 大会前夕亮相（2 分钟阅读）

@FinanceYF5: 天哪天哪天哪，Gemini 这次真的炸了 Gemini Omni：全新视频模型这是首个生成结果，看看它的文字连贯性。如果这都不是视频领域的 “Nano Banana 时刻”，那什么才是？？

Google 新款视频模型 "Omni" 遭泄露，用户指出其文本连贯性

Google 所有新 AI 更新一网打尽（NotebookLM、Gemini 等）

提交意见反馈