UnityShots:基于记忆的多镜头音视频生成与边界感知门控
摘要
UnityShots 是一个基于记忆的多镜头音视频生成系统,通过固定大小的长期记忆槽和短期记忆槽,结合边界条件门控与离散切类型先验,在视频切换中保持主体外观和音频的一致性。该系统在跨镜头一致性指标上优于开源基线,并达到与闭源系统相当的水平。
查看缓存全文
缓存时间: 2026/06/25 09:11
论文页面 - UnityShots: 基于记忆驱动与边界感知门控的多镜头音视频生成
来源:https://huggingface.co/papers/2606.21661
摘要
UnityShots 是一个记忆驱动的音视频生成系统,它通过固定大小的长期和短期记忆槽、边界条件门控以及离散切割类型先验,在多段视频切换中保持主体外观和音频的一致性。
生成连贯的多镜头视频需要结构化的跨镜头记忆。主体外观、场景语境和说话者身份必须在镜头切换中保持不变。现有方法要么在固定长度序列上进行端到端训练而无法扩展,要么使用线性增长的记忆库逐镜头生成,要么在 LLM 规划器下协调预训练生成器而没有多镜头感知的主干网络。我们提出 UnityShots,一个基于 LTX-2.3 构建的记忆驱动多镜头音视频生成系统,并在带有标注的电影和音乐视频片段上进行了训练。视频流维持两个固定大小的槽:一个锚定于开场镜头的长期记忆槽,以及一个保存紧邻前一个片段尾部的短期记忆槽。两者均在每次切换时通过边界条件门控进行更新,该门控融合了视觉切割概率和节拍跟踪信号。音频流在每个镜头注入参考说话者令牌,以保持声音音色而无需滑动音频库。通过 AdaLN 学习到的离散切割类型先验,成为推理时对过渡强度的控制旋钮。我们发布了一个包含 200 个多文化多镜头序列的基准测试,涵盖六个民族地区和十种以上语言,并附带每个镜头的参考身份、参考音频以及每个边界的过渡标签。在 I2V、T2V 和 R2V 三种条件模式下进行评估,UnityShots 在所有跨镜头一致性指标上均领先于开源基线,并在多镜头维度上与最强的闭源系统持平。
查看 arXiv 页面 (https://arxiv.org/abs/2606.21661) 查看 PDF (https://arxiv.org/pdf/2606.21661) 项目页面 (https://jackailab.github.io/Projects/UnityShots/) GitHub2 (https://github.com/JIA-Lab-research/UnityShots) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.21661)
在你的智能体中获取本文:
hf papers read 2606\.21661
没有最新版 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用本文的模型0
没有模型链接本文
在模型的 README.md 中引用 arxiv.org/abs/2606.21661,以便从此页面链接到它。
引用本文的数据集1
KlingTeam/UnityShotsBench 查看器 • 更新于约 20 小时前 • 1.43k • 2 • 4 (https://huggingface.co/datasets/KlingTeam/UnityShotsBench)
引用本文的 Space0
没有 Space 链接本文
在 Space 的 README.md 中引用 arxiv.org/abs/2606.21661,以便从此页面链接到它。
包含本文的收藏0
没有收藏包含本文
将本文添加到一个收藏 (https://huggingface.co/new-collection) 中,以便从此页面链接到它。
相似文章
MSAVBench:迈向多镜头音视频生成的全面可靠评估
MSAVBench是首个面向多镜头音视频生成的综合基准与自适应评估框架,评估了19个模型在多样化任务上的表现,并与人类判断实现了高度对齐。
MuSS:面向多镜头主体到视频生成的大规模数据集与电影叙事基准
MuSS 引入了一个用于多镜头主体到视频生成的大规模数据集和基准,旨在解决电影叙事中的逻辑一致性和“复制-粘贴”问题。
Memento:通过重建实现记忆,用于一致的长时间视频生成
Memento 是一个以主体重建为引导的框架,通过基于记忆的重建和双查询机制来保留重复出现的主体,从而改进长视频生成,在长期主体一致性和跨镜头连贯性方面达到了最先进的性能。
Echo-Forcing: 一种用于交互式长视频生成的场景记忆框架
Echo-Forcing 提出了一种用于交互式长视频生成的场景记忆框架,利用分层时间记忆、场景召回帧和差异感知记忆衰减来处理提示切换和长期回忆。该方法无需训练,在 VBench-Long 上取得了强劲的性能。
UniVidX:基于扩散先验的多功能视频生成统一多模态框架
本文介绍了 UniVidX 论文,该论文提出了一种利用扩散先验进行视频生成的统一多模态框架,并讨论了其跨模态一致性机制。