将Gemini Omni编辑调用作为智能体视频管道中的确定性步骤

Reddit r/AI_Agents 2026/05/25 04:18 工具

agent-pipelines video-generation determinism gemini-omni edit-mode generative-ai ai-pipelines

摘要

本文讨论了在智能体视频管道中将Gemini Omni的编辑模式用作确定性转换步骤，从而无需完全重新生成视频即可实现可复现的状态变化，提升成本效益和速度。

我们一直在构建生成视频输出的智能体管道，而确定性问题一直是主要障碍。文本转视频模型每次调用时都会产生不同的输出，即使使用相同的提示词和种子也是如此。对于需要可复现状态的智能体工作流来说，这是个问题。Gemini Omni的编辑模式正在为我们改变这一状况。模式如下：首先用任意模型生成一段基础视频，然后将Omni的多轮编辑调用作为确定性转换层。每次编辑调用接收确定的输入并产生受约束的输出。角色保持一致，场景保持一致，只有指定的变换发生。对于需要“根据世界条件修改视频状态”的智能体来说，这更接近函数调用而非生成调用。输入到输出的映射是可预测的。当前工作中的实际例子：智能体接收一个触发条件（例如源数据中的天气变化），需要生成反映新状态的视频变体。与其重新生成整段视频（非确定性、昂贵、缓慢），我们传入先前的输出和一条编辑指令。角色保持，场景保持，只有天气发生变化。路由影响：生成模型仍然作为非确定性的创意步骤。Omni编辑成为确定性转换步骤。管道自然沿着这条线划分。成本模型也合理。根据我们的使用情况，编辑调用的运行时间比完整生成调用短。我们仍在解决与物理边界不匹配相关的故障模式。如果有人运行类似的管道，欢迎分享模式。

查看原文

将Gemini Omni编辑调用作为智能体视频管道中的确定性步骤

相似文章

什么是 Gemini Omni？

Gemini Omni 其实非常惊人

How to Edit & Create Videos with Gemini Omni

Gemini Omni

Gemini Omni

提交意见反馈