LTX-2:高效的联合音视频基础模型

Papers with Code Trending 论文

摘要

LTX-2 是一款高效的联合音视频基础模型。文本内容混合了论文引用和关于国家面临生存威胁的视频脚本,但主要的分类目标是该 AI 模型论文。

近期的文生视频扩散模型能够生成引人入胜的视频序列,但它们始终是“沉默的”——缺少了音频所能提供的语义、情感和氛围线索。我们推出了 LTX-2,这是一个开源的基础模型,能够以统一的方式生成高质量、时间同步的音视频内容。LTX-2 采用非对称双流 Transformer 架构,包含一个 140 亿参数的视频流和一个 50 亿参数的音频流,通过双向音视频交叉注意力层、时间位置嵌入以及跨模态 AdaLN 进行共享时间步条件耦合。该架构实现了统一音视频模型的高效训练与推理,同时为视频生成分配了比音频生成更多的容量。我们采用多语言文本编码器以实现更广泛的理解,并引入了模态感知无分类器引导(modality-CFG)机制,以提升音视频对齐效果和可控性。除了生成语音外,LTX-2 还能产生丰富、连贯的音轨,贴合每个场景的角色、环境、风格和情感——包含自然的背景和拟音元素。在评估中,该模型在开源系统中实现了最先进的音视频质量和提示遵循度,同时以远低于专有模型的计算成本和推理时间达到了可与之媲美的效果。所有模型权重和代码均已公开发布。
查看原文
查看缓存全文

缓存时间: 2026/05/08 08:56

论文页面 - LTX-2: Efficient Joint Audio-Visual Foundation Model

来源:https://huggingface.co/papers/2601.03233 按顺序制作视频(共12张图),首先创建18:9格式 ## 完成脚本:“5个可能在我们有生之年消失的国家”

时长:~1:45 – 2:00 **基调:**令人不安,但基于事实


https://huggingface.co/papers/2601.03233#%D1%85%D1%83%D0%BA-000–010开场 (0:00 – 0:10)

画面:世界地图,部分区域开始消失。紧张的音乐。

文字:“你看着世界地图,以为它是永恒的。并非如此。今天我们熟知的一些国家,可能等不到你老去就不存在了。以下是5个正在为生存而战的国家。”


https://huggingface.co/papers/2601.03233#%D0%BC%D0%B5%D1%81%D1%82%D0%BE-%E2%84%965-%D0%BC%D0%B0%D0%BB%D1%8C%D0%B4%D0%B8%D0%B2%D1%8B-maldives第5名:马尔代夫 (Maldives)

画面:天堂般的岛屿,海洋,波浪,沙滩上的人群。

文字:“第5名:The Maldives。印度洋上最美的岛屿。平均海拔?仅1.5米。科学家表示,如果海平面持续上升,马尔代夫可能在本世纪末被淹没。政府已经在其他国家购买土地,为国民迁移做准备。一个正在消失的 paradise。”


https://huggingface.co/papers/2601.03233#%D0%BC%D0%B5%D1%81%D1%82%D0%BE-%E2%84%964-%D1%82%D0%B0%D0%B9%D0%B2%D0%B0%D0%BD%D1%8C-taiwan第4名:台湾 (Taiwan)

画面:地图显示台湾与中国大陆的位置,旗帜。

文字:“第4名:Taiwan。这不是气候问题——而是政治问题。台湾实际上已独立数十年,但中国声称对其拥有主权。紧张局势正在升级。如果中国决定武力控制,台湾作为一个独立国家可能不复存在。”


https://huggingface.co/papers/2601.03233#%D0%BC%D0%B5%D1%81%D1%82%D0%BE-%E2%84%963-%D0%BA%D0%B8%D1%80%D0%B8%D0%B1%D0%B0%D1%82%D0%B8-kiribati第3名:基里巴斯 (Kiribati)

画面:太平洋,小岛,地图。

文字:“第3名:Kiribati。太平洋上由33个岛屿组成的国家。大多数岛屿几乎与海平面持平。他们的总统在斐济购买了土地,只为在海洋吞没他们时有地方可去。他们可能成为第一个完全消失的国家。而这正在发生。”


https://huggingface.co/papers/2601.03233#%D0%BC%D0%B5%D1%81%D1%82%D0%BE-%E2%84%962-%D0%B1%D0%B0%D0%BD%D0%B3%D0%BB%D0%B0%D0%B4%D0%B5%D1%88-bangladesh第2名:孟加拉国 (Bangladesh)

画面:洪水,人们站在齐腰深的水中,孟加拉国地图。

文字:“第2名:Bangladesh。地球上人口最稠密的国家之一。1.7亿人生活在巨大的河流三角洲上。每年洪水都在恶化。科学家预测,到2050年,该国20%的领土可能被淹没。那是3000万气候难民。这个最贫穷的国家之一可能变得无法居住。”


https://huggingface.co/papers/2601.03233#%D0%BC%D0%B5%D1%81%D1%82%D0%BE-%E2%84%961-%D1%82%D1%83%D0%B2%D0%B0%D0%BB%D1%83-tuvalu第1名:图瓦卢 (Tuvalu)

画面:海洋中的小岛,波浪,阳光。

文字:“第1名:Tuvalu。太平洋上的一个小岛国。最高海拔仅4.5米。但涨潮时,整个国家都会被淹没。政府正在修建海堤,但可能远远不够。图瓦卢可能成为第一个完全失去领土的国家。而最可怕的部分?这可能在未来30年内发生。”


https://huggingface.co/papers/2601.03233#%D0%B0%D1%83%D1%82%D1%80%D0%BE-145–200结尾 (1:45 – 2:00)

画面:带有问号的地图。音乐渐弱。

文字:“这些国家中,你想拯救哪一个?在评论里告诉我。如果你想了解更多地理和历史内容——请订阅。下一个视频将讲述当一个国家完全消失时会发生什么。”

相似文章

Lightricks/LTX-2

GitHub Trending (daily)

LTX-2 是 Lightricks 推出的首个基于 DiT 的音频-视频基础模型,提供同步音频和视频生成、高保真度以及可投入生产的输出,并附带开源代码和开放模型权重。

大型基础模型中的视听智能

Hugging Face Daily Papers

本综述论文全面回顾了大型基础模型中的视听智能,建立了统一的分类体系,综合了核心方法论,并概述了关键数据集、基准和开放性研究挑战。

Lightricks/LTX-2.3

Hugging Face Models Trending

Lightricks 发布了 LTX-2.3,这是一个基于扩散的开放权重音视频基础模型,具有改进的质量和提示遵循性,提供多个检查点,包括蒸馏和 LoRA 变体,可在本地执行。

Lightricks/LTX-2.3-22b-IC-LoRA-LipDub

Hugging Face Models Trending

这个Hugging Face模型页面介绍了一个基于LTX-2.3-22b训练的IC-LoRA,用于唇语同步配音,包含项目页面、论文和推理流程。

当视觉为声音代言

Hugging Face Daily Papers

本文发现,具备视频处理能力的多模态大语言模型(MLLMs)表面上似乎能够理解音频,但实际上依赖视觉线索,这一失败模式被称为视听Clever Hans效应。我们提出了Thud,一个基于干预的探查框架来诊断该问题,并提出了一种对齐方案,将视听一致性提升了28个百分点。