LongCat-Video 技术报告
摘要
LongCat-Video 是一个基于 Diffusion Transformer 的 13.6B 参数视频生成模型,支持文生视频、图生视频和视频续写任务,通过粗细粒度结合与分块稀疏注意力实现高效的长视频生成。
查看缓存全文
缓存时间: 2026/05/23 00:22
论文页面 - LongCat-Video 技术报告
来源: https://huggingface.co/papers/2510.22200
发布于 2025年10月25日
·
由 taesiri 提交
taesiri (https://huggingface.co/taesiri) 于 2025年10月28日
作者:
,
,
,
,
,
,
,
,
摘要
LongCat-Video 是一个基于扩散 Transformer 框架的 13.6B 参数视频生成模型,采用统一架构、由粗到精生成和块稀疏注意力机制,在多个任务上实现了高效高质量的长视频生成。
视频生成是通往世界模型的关键路径,而高效的长视频推理是其中的核心能力。为此,我们推出了 LongCat-Video,一个拥有 13.6B 参数的基础视频生成模型,在多种视频生成任务上展现出强大性能。它尤其擅长高效、高质量的长视频生成,这标志着我们向世界模型迈出的第一步。关键特性包括:统一架构支持多任务:基于 扩散 Transformer (DiT) 框架,LongCat-Video 通过单一模型支持文生视频、图生视频和视频续写任务;长视频生成:通过在视频续写任务上的预训练,LongCat-Video 可在生成数分钟长的视频时保持高质量和时间连贯性;高效推理:LongCat-Video 采用时间轴和空间轴上的由粗到精生成策略,在数分钟内生成 720p、30fps 的视频。块稀疏注意力机制进一步提升了效率,尤其是在高分辨率下;多奖励强化学习RLHF 实现强性能:多奖励 RLHF 训练使 LongCat-Video 的性能可与最新的闭源模型和领先的开源模型相媲美。代码和模型权重已公开,以加速该领域的发展。
查看 arXiv 页面 | 查看 PDF | GitHub 2.6k | 添加到收藏
在你的智能体中获取此论文:
hf papers read 2510.22200
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 (11)
meituan-longcat/LongCat-Video 文生视频 • 更新于 2025年10月29日 • 1.29k • 478
Nishant2414/LongCat-Video 文生视频 • 更新于 16天前 • 15 • 1
fjkane/LongCat-Video-bf16 文生视频 • 更新于 2025年12月19日 • 1
Alfikun/LongCat-Video 文生视频 • 更新于 2月22日 • 1
引用该论文的数据集 (0)
没有数据集与此论文关联。
请在一个数据集的 README.md 中引用 arxiv.org/abs/2510.22200,以便在此页面链接。
引用该论文的 Spaces (211)
包含该论文的收藏集 (6)
相似文章
meituan-longcat/LongCat-Video-Avatar-1.5 · Hugging Face
LongCat-Video-Avatar 1.5 是一个升级的开源框架,用于音频驱动的人像视频生成,具备更优的唇形同步、生产级稳定性及高效的8步推理能力。
长视频生成(阅读时间 4 分钟)
本文介绍了 A²RD,这是一种利用智能体自回归扩散生成一致性长视频的新型架构。该架构提出了检索-合成-优化-更新(Retrieve–Synthesize–Refine–Update)循环机制,并推出了一个新的基准测试 LVBench-C,以解决长时视频合成中的语义漂移问题。
SANA-Video:基于块线性扩散变压器的高效视频生成
SANA-Video是一个小型扩散模型,利用线性注意力和恒定内存KV缓存,高效生成高分辨率、长时长的视频,以显著更低的成本和更快的速度实现与现有模型相媲美的性能。
LVSA: 用于长视频扩散的无训练稀疏注意力
LVSA 为视频扩散模型引入了一种无训练稀疏注意力机制,将计算量减少高达 3.17 倍,同时能够在训练时长之外进行生成,且无质量损失。
Motif-Video 2B:技术报告
# 论文页面 - Motif-Video 2B:技术报告 来源:[https://huggingface.co/papers/2604.16503](https://huggingface.co/papers/2604.16503) 作者:、、、、、、、、、、、、、、、、、、、、、 ## 摘要 Motif-Video 2B 采用共享交叉注意力与三段式主干的专用架构,以及高效训练方法,在显著降低参数量和训练数据用量的同时,实现了高质量文本到视频生成。