基于自回归扩散变换器的流式同步空间音频生成

Hugging Face Daily Papers 论文

摘要

SwanSphere 提出了一种统一的流式框架,通过因果自回归扩散变换器和多模态学习策略,从全景视频和文本提示中生成高保真空间音频,在视频到空间音频和文本到空间音频任务中均实现了卓越性能。

实时且精确的空间音频生成对于提供沉浸式体验至关重要。然而,现有的空间音频合成技术通常在生成质量与高推理延迟之间面临权衡,并且在从多模态输入中捕捉精确空间信息方面存在困难。为了解决这些挑战,我们提出了 SwanSphere,这是一个用于从全景视频和文本提示中生成高保真空间音频的统一流式框架。SwanSphere 的主要贡献如下:1)我们引入了一种因果自回归扩散变换器架构,实现了流式高质量空间音频生成。2)我们设计了一种空间视频-音频对比学习(SVAC)策略,用于对齐视频编码器与声学域,并进一步采用多目标在线直接偏好优化(ODPO)方案,从而实现了强大的空间感知能力和鲁棒的多模态空间音频合成。3)为了缓解当前空间音频数据集的稀缺问题,我们还开发了一个自动标注流程,用于生成详细的空间描述。实验结果表明,SwanSphere 在视频到空间音频和文本到空间音频生成任务中均取得了优越的性能。演示可在以下网址找到:https://swanaigc.github.io。
查看原文
查看缓存全文

缓存时间: 2026/06/01 07:18

论文页面 - 通过自回归扩散变换器实现流式同步空间音频生成

来源:https://huggingface.co/papers/2605.30940

摘要

SwanSphere 提出了一种统一的流式框架,利用因果自回归扩散变换器与多模态学习策略,从全景视频和文本提示中生成高保真空间音频。

实时且精确的空间音频生成对于提供沉浸式体验至关重要。然而,现有的空间音频合成技术常常在生成质量与高推理延迟之间存在权衡,并且难以从多模态输入中捕捉精确的空间信息。为解决这些挑战,我们提出了 SwanSphere,一种统一的流式框架,用于从全景视频文本提示中生成高保真空间音频。SwanSphere 的主要贡献如下:1) 我们引入了一种因果自回归扩散变换器架构,能够实现流式的高质量空间音频生成。2) 我们设计了一种空间视频-音频对比(SVAC)学习策略,使视频编码器与声学领域对齐,并进一步采用多目标在线直接偏好优化(ODPO)方案,从而获得强大的空间感知能力和稳健的多模态空间音频合成。3) 为缓解当前空间音频数据集的稀缺问题,我们还开发了一条自动标注管线,用于生成详细的空间描述。实验结果表明,SwanSphere 在视频到空间音频以及文本到空间音频生成任务中均取得了优越的性能。演示可在以下网址找到:https://swanaigc.github.io/。

查看 arXiv 页面 (https://arxiv.org/abs/2605.30940) 查看 PDF (https://arxiv.org/pdf/2605.30940) 项目页面 (https://swanaigc.github.io/#swansphere) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.30940)

在你的 Agent 中获取这篇论文:

hf papers read 2605.30940

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2605.30940 以在此页面建立链接。

引用本论文的数据集0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.30940 以在此页面建立链接。

引用本论文的空间0

没有空间链接到此论文

在空间 README.md 中引用 arxiv.org/abs/2605.30940 以在此页面建立链接。

包含本论文的收藏0

没有收藏包含此论文

将本论文添加到收藏以在此页面建立链接。

相似文章

Stream-T1:用于流式视频生成的测试时扩展

Hugging Face Daily Papers

Stream-T1 是一种针对流式视频生成提出的测试时扩展(TTS)框架,通过噪声传播和奖励剪枝等机制,提升了时间一致性和生成质量。该论文通过利用块级合成技术,解决了现有基于扩散模型的方法计算成本过高的问题。

长视频生成(阅读时间 4 分钟)

TLDR AI

本文介绍了 A²RD,这是一种利用智能体自回归扩散生成一致性长视频的新型架构。该架构提出了检索-合成-优化-更新(Retrieve–Synthesize–Refine–Update)循环机制,并推出了一个新的基准测试 LVBench-C,以解决长时视频合成中的语义漂移问题。