LongCat-Video 技术报告

Papers with Code Trending 论文

摘要

LongCat-Video 是一个基于 Diffusion Transformer 的 13.6B 参数视频生成模型,支持文生视频、图生视频和视频续写任务,通过粗细粒度结合与分块稀疏注意力实现高效的长视频生成。

视频生成是通往世界模型的关键路径,而高效的长视频推理是其中的核心能力。为此,我们推出了 LongCat-Video,一个拥有 13.6B 参数的基础视频生成模型,在多项视频生成任务中展现出强劲性能。它尤其擅长高效、高质量的长视频生成,代表着我们迈向世界模型的第一步。主要特点包括:统一架构支持多任务:基于 Diffusion Transformer (DiT) 框架,LongCat-Video 通过单一模型支持文生视频、图生视频和视频续写任务;长视频生成:通过在视频续写任务上的预训练,LongCat-Video 能够生成分钟级视频并保持高质量与时间一致性;高效推理:LongCat-Video 采用沿时间和空间轴的粗细粒度生成策略,可在数分钟内生成 720p、30fps 的视频。分块稀疏注意力进一步提升了效率,尤其在高分辨率下;多奖励 RLHF 带来强劲性能:多奖励 RLHF 训练使 LongCat-Video 的性能与最新的闭源和领先开源模型相当。代码和模型权重已公开发布,以加速该领域的进展。
查看原文
查看缓存全文

缓存时间: 2026/05/23 00:22

论文页面 - LongCat-Video 技术报告

来源: https://huggingface.co/papers/2510.22200
发布于 2025年10月25日

·

taesiri 提交


taesiri (https://huggingface.co/taesiri) 于 2025年10月28日

作者:

,

,

,

,

,

,

,

,

摘要

LongCat-Video 是一个基于扩散 Transformer 框架的 13.6B 参数视频生成模型,采用统一架构、由粗到精生成和块稀疏注意力机制,在多个任务上实现了高效高质量的长视频生成。

视频生成是通往世界模型的关键路径,而高效的长视频推理是其中的核心能力。为此,我们推出了 LongCat-Video,一个拥有 13.6B 参数的基础视频生成模型,在多种视频生成任务上展现出强大性能。它尤其擅长高效、高质量的长视频生成,这标志着我们向世界模型迈出的第一步。关键特性包括:统一架构支持多任务:基于 扩散 Transformer (DiT) 框架,LongCat-Video 通过单一模型支持文生视频图生视频视频续写任务;长视频生成:通过在视频续写任务上的预训练,LongCat-Video 可在生成数分钟长的视频时保持高质量和时间连贯性高效推理:LongCat-Video 采用时间轴和空间轴上的由粗到精生成策略,在数分钟内生成 720p、30fps 的视频。块稀疏注意力机制进一步提升了效率,尤其是在高分辨率下;多奖励强化学习RLHF 实现强性能:多奖励 RLHF 训练使 LongCat-Video 的性能可与最新的闭源模型和领先的开源模型相媲美。代码和模型权重已公开,以加速该领域的发展。

查看 arXiv 页面 | 查看 PDF | GitHub 2.6k | 添加到收藏

在你的智能体中获取此论文:

hf papers read 2510.22200

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 (11)

meituan-longcat/LongCat-Video 文生视频 • 更新于 2025年10月29日 • 1.29k • 478

Nishant2414/LongCat-Video 文生视频 • 更新于 16天前 • 15 • 1

fjkane/LongCat-Video-bf16 文生视频 • 更新于 2025年12月19日 • 1

Alfikun/LongCat-Video 文生视频 • 更新于 2月22日 • 1

浏览所有引用该论文的 11 个模型

引用该论文的数据集 (0)

没有数据集与此论文关联。

请在一个数据集的 README.md 中引用 arxiv.org/abs/2510.22200,以便在此页面链接。

引用该论文的 Spaces (211)

浏览所有引用该论文的 211 个 Spaces

包含该论文的收藏集 (6)

浏览包含该论文的 6 个收藏集

相似文章

长视频生成(阅读时间 4 分钟)

TLDR AI

本文介绍了 A²RD,这是一种利用智能体自回归扩散生成一致性长视频的新型架构。该架构提出了检索-合成-优化-更新(Retrieve–Synthesize–Refine–Update)循环机制,并推出了一个新的基准测试 LVBench-C,以解决长时视频合成中的语义漂移问题。

Motif-Video 2B:技术报告

Hugging Face Daily Papers

# 论文页面 - Motif-Video 2B:技术报告 来源:[https://huggingface.co/papers/2604.16503](https://huggingface.co/papers/2604.16503) 作者:、、、、、、、、、、、、、、、、、、、、、 ## 摘要 Motif-Video 2B 采用共享交叉注意力与三段式主干的专用架构,以及高效训练方法,在显著降低参数量和训练数据用量的同时,实现了高质量文本到视频生成。