UnityShots:基于记忆的多镜头音视频生成与边界感知门控

Hugging Face Daily Papers 论文

摘要

UnityShots 是一个基于记忆的多镜头音视频生成系统,通过固定大小的长期记忆槽和短期记忆槽,结合边界条件门控与离散切类型先验,在视频切换中保持主体外观和音频的一致性。该系统在跨镜头一致性指标上优于开源基线,并达到与闭源系统相当的水平。

生成连贯的多镜头视频需要结构化的跨镜头记忆。主体外观、场景上下文和说话者身份必须在镜头切换中保持一致。现有方法要么在固定长度序列上进行端到端训练而无法扩展,要么使用线性增长的记忆库逐镜头生成,要么在缺乏多镜头感知主干的大型语言模型规划器下协调预训练生成器。我们提出了 UnityShots,一个基于 LTX-2.3 构建的、经过带标注的电影和音乐视频镜头训练的记忆驱动型多镜头音视频生成系统。视频流维持两个固定大小的槽:一个锚定于开场镜头的长期记忆槽和一个保存紧邻前一个镜头尾部的短期记忆槽,两者均在每次切换时通过一个边界条件门控更新,该门控融合了视觉切换概率和节拍跟踪器信号。音频流在每个镜头注入一个参考说话者标记,以保持音色,而无需滑动音频库。通过 AdaLN 学习到的离散切换类型先验,成为推理时控制切换强度的旋钮。我们发布了一个包含 200 个跨文化多镜头序列的基准测试,涵盖六个民族地区和十种以上语言,并包含每镜头的参考身份、参考音频和每边界的切换标签。在 I2V、T2V 和 R2V 条件模式下评估,UnityShots 在每一个跨镜头一致性指标上领先开源基线,并在多镜头维度上与最强的闭源系统相当。
查看原文
查看缓存全文

缓存时间: 2026/06/25 09:11

论文页面 - UnityShots: 基于记忆驱动与边界感知门控的多镜头音视频生成

来源:https://huggingface.co/papers/2606.21661

摘要

UnityShots 是一个记忆驱动的音视频生成系统,它通过固定大小的长期和短期记忆槽、边界条件门控以及离散切割类型先验,在多段视频切换中保持主体外观和音频的一致性。

生成连贯的多镜头视频需要结构化的跨镜头记忆。主体外观、场景语境和说话者身份必须在镜头切换中保持不变。现有方法要么在固定长度序列上进行端到端训练而无法扩展,要么使用线性增长的记忆库逐镜头生成,要么在 LLM 规划器下协调预训练生成器而没有多镜头感知的主干网络。我们提出 UnityShots,一个基于 LTX-2.3 构建的记忆驱动多镜头音视频生成系统,并在带有标注的电影和音乐视频片段上进行了训练。视频流维持两个固定大小的槽:一个锚定于开场镜头的长期记忆槽,以及一个保存紧邻前一个片段尾部的短期记忆槽。两者均在每次切换时通过边界条件门控进行更新,该门控融合了视觉切割概率和节拍跟踪信号。音频流在每个镜头注入参考说话者令牌,以保持声音音色而无需滑动音频库。通过 AdaLN 学习到的离散切割类型先验,成为推理时对过渡强度的控制旋钮。我们发布了一个包含 200 个多文化多镜头序列的基准测试,涵盖六个民族地区和十种以上语言,并附带每个镜头的参考身份、参考音频以及每个边界的过渡标签。在 I2V、T2V 和 R2V 三种条件模式下进行评估,UnityShots 在所有跨镜头一致性指标上均领先于开源基线,并在多镜头维度上与最强的闭源系统持平。

查看 arXiv 页面 (https://arxiv.org/abs/2606.21661) 查看 PDF (https://arxiv.org/pdf/2606.21661) 项目页面 (https://jackailab.github.io/Projects/UnityShots/) GitHub2 (https://github.com/JIA-Lab-research/UnityShots) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.21661)

在你的智能体中获取本文:

hf papers read 2606\.21661

没有最新版 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本文的模型0

没有模型链接本文

在模型的 README.md 中引用 arxiv.org/abs/2606.21661,以便从此页面链接到它。

引用本文的数据集1

KlingTeam/UnityShotsBench 查看器 • 更新于约 20 小时前 • 1.43k • 2 • 4 (https://huggingface.co/datasets/KlingTeam/UnityShotsBench)

引用本文的 Space0

没有 Space 链接本文

在 Space 的 README.md 中引用 arxiv.org/abs/2606.21661,以便从此页面链接到它。

包含本文的收藏0

没有收藏包含本文

将本文添加到一个收藏 (https://huggingface.co/new-collection) 中,以便从此页面链接到它。

相似文章

Echo-Forcing: 一种用于交互式长视频生成的场景记忆框架

Hugging Face Daily Papers

Echo-Forcing 提出了一种用于交互式长视频生成的场景记忆框架,利用分层时间记忆、场景召回帧和差异感知记忆衰减来处理提示切换和长期回忆。该方法无需训练,在 VBench-Long 上取得了强劲的性能。