LongCat-Video 技术报告

Papers with Code Trending 2025/10/25 07:41 论文

摘要

LongCat-Video 是一个基于 Diffusion Transformer 的 13.6B 参数视频生成模型，支持文生视频、图生视频和视频续写任务，通过粗细粒度结合与分块稀疏注意力实现高效的长视频生成。

视频生成是通往世界模型的关键路径，而高效的长视频推理是其中的核心能力。为此，我们推出了 LongCat-Video，一个拥有 13.6B 参数的基础视频生成模型，在多项视频生成任务中展现出强劲性能。它尤其擅长高效、高质量的长视频生成，代表着我们迈向世界模型的第一步。主要特点包括：统一架构支持多任务：基于 Diffusion Transformer (DiT) 框架，LongCat-Video 通过单一模型支持文生视频、图生视频和视频续写任务；长视频生成：通过在视频续写任务上的预训练，LongCat-Video 能够生成分钟级视频并保持高质量与时间一致性；高效推理：LongCat-Video 采用沿时间和空间轴的粗细粒度生成策略，可在数分钟内生成 720p、30fps 的视频。分块稀疏注意力进一步提升了效率，尤其在高分辨率下；多奖励 RLHF 带来强劲性能：多奖励 RLHF 训练使 LongCat-Video 的性能与最新的闭源和领先开源模型相当。代码和模型权重已公开发布，以加速该领域的进展。

查看原文

查看缓存全文

缓存时间: 2026/05/23 00:22

论文页面 - LongCat-Video 技术报告

来源: https://huggingface.co/papers/2510.22200
发布于 2025年10月25日

由 taesiri 提交

taesiri (https://huggingface.co/taesiri) 于 2025年10月28日

作者:

摘要

LongCat-Video 是一个基于扩散 Transformer 框架的 13.6B 参数视频生成模型，采用统一架构、由粗到精生成和块稀疏注意力机制，在多个任务上实现了高效高质量的长视频生成。

视频生成是通往世界模型的关键路径，而高效的长视频推理是其中的核心能力。为此，我们推出了 LongCat-Video，一个拥有 13.6B 参数的基础视频生成模型，在多种视频生成任务上展现出强大性能。它尤其擅长高效、高质量的长视频生成，这标志着我们向世界模型迈出的第一步。关键特性包括：统一架构支持多任务：基于扩散 Transformer (DiT) 框架，LongCat-Video 通过单一模型支持文生视频、图生视频和视频续写任务；长视频生成：通过在视频续写任务上的预训练，LongCat-Video 可在生成数分钟长的视频时保持高质量和时间连贯性；高效推理：LongCat-Video 采用时间轴和空间轴上的由粗到精生成策略，在数分钟内生成 720p、30fps 的视频。块稀疏注意力机制进一步提升了效率，尤其是在高分辨率下；多奖励强化学习RLHF 实现强性能：多奖励 RLHF 训练使 LongCat-Video 的性能可与最新的闭源模型和领先的开源模型相媲美。代码和模型权重已公开，以加速该领域的发展。

查看 arXiv 页面 | 查看 PDF | GitHub 2.6k | 添加到收藏

在你的智能体中获取此论文：

hf papers read 2510.22200

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 (11)

meituan-longcat/LongCat-Video 文生视频 • 更新于 2025年10月29日 • 1.29k • 478

Nishant2414/LongCat-Video 文生视频 • 更新于 16天前 • 15 • 1

fjkane/LongCat-Video-bf16 文生视频 • 更新于 2025年12月19日 • 1

Alfikun/LongCat-Video 文生视频 • 更新于 2月22日 • 1

浏览所有引用该论文的 11 个模型

引用该论文的数据集 (0)

没有数据集与此论文关联。

请在一个数据集的 README.md 中引用 arxiv.org/abs/2510.22200，以便在此页面链接。

引用该论文的 Spaces (211)

浏览所有引用该论文的 211 个 Spaces

包含该论文的收藏集 (6)

浏览包含该论文的 6 个收藏集

LongCat-Video 技术报告

论文页面 - LongCat-Video 技术报告

摘要

引用该论文的模型 (11)

meituan-longcat/LongCat-Video 文生视频 • 更新于 2025年10月29日 • 1.29k • 478

Nishant2414/LongCat-Video 文生视频 • 更新于 16天前 • 15 • 1

fjkane/LongCat-Video-bf16 文生视频 • 更新于 2025年12月19日 • 1

Alfikun/LongCat-Video 文生视频 • 更新于 2月22日 • 1

引用该论文的数据集 (0)

引用该论文的 Spaces (211)

包含该论文的收藏集 (6)

相似文章

meituan-longcat/LongCat-Video-Avatar-1.5 · Hugging Face

长视频生成（阅读时间 4 分钟）

SANA-Video：基于块线性扩散变压器的高效视频生成

LVSA: 用于长视频扩散的无训练稀疏注意力

Motif-Video 2B：技术报告

提交意见反馈