将Gemini Omni编辑调用作为智能体视频管道中的确定性步骤
摘要
本文讨论了在智能体视频管道中将Gemini Omni的编辑模式用作确定性转换步骤,从而无需完全重新生成视频即可实现可复现的状态变化,提升成本效益和速度。
我们一直在构建生成视频输出的智能体管道,而确定性问题一直是主要障碍。文本转视频模型每次调用时都会产生不同的输出,即使使用相同的提示词和种子也是如此。对于需要可复现状态的智能体工作流来说,这是个问题。Gemini Omni的编辑模式正在为我们改变这一状况。模式如下:首先用任意模型生成一段基础视频,然后将Omni的多轮编辑调用作为确定性转换层。每次编辑调用接收确定的输入并产生受约束的输出。角色保持一致,场景保持一致,只有指定的变换发生。对于需要“根据世界条件修改视频状态”的智能体来说,这更接近函数调用而非生成调用。输入到输出的映射是可预测的。当前工作中的实际例子:智能体接收一个触发条件(例如源数据中的天气变化),需要生成反映新状态的视频变体。与其重新生成整段视频(非确定性、昂贵、缓慢),我们传入先前的输出和一条编辑指令。角色保持,场景保持,只有天气发生变化。路由影响:生成模型仍然作为非确定性的创意步骤。Omni编辑成为确定性转换步骤。管道自然沿着这条线划分。成本模型也合理。根据我们的使用情况,编辑调用的运行时间比完整生成调用短。我们仍在解决与物理边界不匹配相关的故障模式。如果有人运行类似的管道,欢迎分享模式。
相似文章
什么是 Gemini Omni?
Gemini Omni 是一款谷歌AI工具,支持通过自然语言指令、草图和多轮对话来编辑视频,实现场景、物体和风格的转换。
Gemini Omni 其实非常惊人
用户分享了使用 Gemini Omni 将一段剪辑编辑成音乐视频的体验,称结果极其令人印象深刻,且以前不可能实现。
How to Edit & Create Videos with Gemini Omni
Gemini Omni 是 Google 推出的视频编辑 AI 模型,能够理解视频内容、物理规律,并自动添加个性化效果。
Gemini Omni
Gemini Omni 是一款新的人工智能产品,可以从任何输入开始创作,首先从视频开始,正如在 Product Hunt 上所展示的。
Gemini Omni
Gemini Omni 是 Google DeepMind 推出的新型 AI 模型,融合了推理与创意能力,支持多模态理解、视频编辑和内容生成,并内置安全措施和数字水印技术。