在视频生成的下一帧预测模型中打包输入帧上下文

Papers with Code Trending 2025/04/17 04:02 论文

neural-network video-generation frame-prediction video-diffusion context-length transformer

摘要

FramePack是一种神经网络结构，它压缩输入帧，使得Transformer上下文长度固定，不受视频长度影响，从而使视频扩散模型能够处理大量帧，计算瓶颈类似于图像扩散，并提高了批量大小。它还引入了一种抗漂移采样方法，以减少曝光偏差。

我们提出了一种名为FramePack的神经网络结构，用于训练视频生成中的下一帧（或下一帧段）预测模型。FramePack压缩输入帧，使得Transformer上下文长度固定为常数，与视频长度无关。因此，我们能够使用视频扩散处理大量帧，计算瓶颈与图像扩散相似。这也使得训练视频的批量大小显著提高（批量大小变得与图像扩散训练相当）。我们还提出了一种抗漂移采样方法，该方法以倒序时间顺序生成帧，并预先建立端点以避免曝光偏差（迭代中的误差累积）。最后，我们展示了现有的视频扩散模型可以通过FramePack进行微调，并且其视觉质量可能得到改善，因为下一帧预测支持更平衡的扩散调度器，具有不太极端的流偏移时间步长。

查看原文

查看缓存全文

缓存时间: 2026/05/18 06:41

论文页面 - 在用于视频生成的下一帧预测模型中打包输入帧上下文

来源：https://huggingface.co/papers/2504.12626 论文（https://huggingface.co/papers）arxiv:2504.12626

发布于 2025年4月17日

由 https://huggingface.co/BestWishYsh 提交

YSH (https://huggingface.co/BestWishYsh) 于 2025年4月18日

#3 当日论文 (https://huggingface.co/papers/date/2025-04-18) 投票数 51 (https://huggingface.co/login?next=%2Fpapers%2F2504.12626)-

作者：

摘要

FramePack 是一种用于视频生成的神经网络，它通过压缩帧来管理 Transformer 的上下文长度，并通过增加批大小和改进帧预测来增强视频扩散模型。

AI 生成的摘要

我们提出了一种名为 FramePack (https://huggingface.co/papers?q=FramePack) 的神经网络 (https://huggingface.co/papers?q=neural%20network) 结构，用于训练视频生成的下一帧（或下一帧切片）预测模型。FramePack 压缩输入帧，使得 Transformer (https://huggingface.co/papers?q=transformer) 的上下文长度 (https://huggingface.co/papers?q=context%20length) 无论视频长度如何都保持固定数量。因此，我们能够利用视频扩散 (https://huggingface.co/papers?q=video%20diffusion) 处理大量帧，计算瓶颈 (https://huggingface.co/papers?q=computation%20bottleneck) 与图像扩散 (https://huggingface.co/papers?q=image%20diffusion) 类似。这也使得训练视频的批大小 (https://huggingface.co/papers?q=batch%20size) 显著提高（批大小变得与图像扩散 (https://huggingface.co/papers?q=image%20diffusion) 训练可比）。我们还提出了一种抗漂移采样 (https://huggingface.co/papers?q=anti-drifting%20sampling) 方法，以逆时间顺序生成帧，并预先确立端点，以避免暴露偏差 (https://huggingface.co/papers?q=exposure%20bias)（迭代过程中的误差累积）。最后，我们展示了现有的视频扩散 (https://huggingface.co/papers?q=video%20diffusion) 模型可以通过 FramePack (https://huggingface.co/papers?q=FramePack) 进行微调，并且其视觉质量可能得到提升，因为下一帧预测 (https://huggingface.co/papers?q=next-frame%20prediction) 支持更均衡的扩散调度器，减少了极端流偏移 (https://huggingface.co/papers?q=flow%20shift) 时间步。

查看 arXiv 页面 (https://arxiv.org/abs/2504.12626)查看 PDF (https://arxiv.org/pdf/2504.12626)项目页面 (https://lllyasviel.github.io/frame_pack_gitpage/)GitHub16.9k (https://github.com/lllyasviel/FramePack)添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2504.12626)

社区

BestWishYsh (https://huggingface.co/BestWishYsh)

论文提交者

2025年4月18日 (https://huggingface.co/papers/2504.12626#6801b654dc06cd86c9a42ebc)

•

已编辑于 2025年4月18日 (https://huggingface.co/papers/2504.12626#6801b654dc06cd86c9a42ebc)

代码：https://github.com/lllyasviel/FramePack 页面：https://lllyasviel.github.io/frame_pack_gitpage

librarian-bot (https://huggingface.co/librarian-bot)

2025年4月19日 (https://huggingface.co/papers/2504.12626#6802fde6744bfbce275cf900)

这是来自 Librarian Bot (https://huggingface.co/librarian-bots) 的自动消息。我找到了以下与本文相似的论文。

以下论文由 Semantic Scholar API 推荐：

VGDFR: Diffusion-based Video Generation with Dynamic Latent Frame Rate (https://huggingface.co/papers/2504.12259) (2025)
Long-Context Autoregressive Video Modeling with Next-Frame Prediction (https://huggingface.co/papers/2503.19325) (2025)
HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models (https://huggingface.co/papers/2503.11513) (2025)
AR-Diffusion: Asynchronous Video Generation with Auto-Regressive Diffusion (https://huggingface.co/papers/2503.07418) (2025)
Generating, Fast and Slow: Scalable Parallel Video Generation with Video Interface Networks (https://huggingface.co/papers/2503.17539) (2025)
LongDiff: Training-Free Long Video Generation in One Go (https://huggingface.co/papers/2503.18150) (2025)
Long Context Tuning for Video Generation (https://huggingface.co/papers/2503.10589) (2025)

如果您觉得有帮助，请点赞此评论！

如果您想获得 Hugging Face 上任意论文的推荐，请查看此 (https://huggingface.co/spaces/librarian-bots/recommend_similar_papers) Space

您可以通过在评论中标记 @librarian\-bot recommend 直接向 Librarian Bot 请求论文推荐。

deleted

2025年4月25日 (https://huggingface.co/papers/2504.12626#680ade124868e7e6bedd5956)

此评论已被隐藏

通过拖拽、粘贴或点击此处 (https://huggingface.co/papers/2504.12626#) 上传图像、音频和视频。

点击或粘贴此处上传图像

·注册 (https://huggingface.co/join?next=%2Fpapers%2F2504.12626)或登录 (https://huggingface.co/login?next=%2Fpapers%2F2504.12626)以评论

投票数 51 (https://huggingface.co/login?next=%2Fpapers%2F2504.12626)-

在您的代理中获取此论文：

hf papers read 2504\.12626

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型1个

URWAIFU/framepack-eichi-f1 更新于 2025年7月8日 (https://huggingface.co/URWAIFU/framepack-eichi-f1)

引用此论文的数据集1个

agreeupon/wrkspace-backup-ttl 更新于 2025年7月13日 • 250 (https://huggingface.co/datasets/agreeupon/wrkspace-backup-ttl)

引用此论文的 Space 14个

📹⚡️ linoyts/FramePack-F1 (https://huggingface.co/spaces/linoyts/FramePack-F1)📹⚡️ makululinux/FramePack-F1 (https://huggingface.co/spaces/makululinux/FramePack-F1)📹⚡️ ObiJuanCodenobi/VidGen-Emilio (https://huggingface.co/spaces/ObiJuanCodenobi/VidGen-Emilio)🚀 jameschen414/FramePack (https://huggingface.co/spaces/jameschen414/FramePack)📊 rajux75/FramePack (https://huggingface.co/spaces/rajux75/FramePack)🚀 YuliyaAether/FramePack-Demo (https://huggingface.co/spaces/YuliyaAether/FramePack-Demo)📹⚡️ Dzlll/FramePackF1 (https://huggingface.co/spaces/Dzlll/FramePackF1)📹⚡️ inoculatemedia/FramePack-F1 (https://huggingface.co/spaces/inoculatemedia/FramePack-F1)

包含此论文的收藏集5个

Video Generation 收藏集 Video Generation• 51 项•更新于19天前 • 2 (https://huggingface.co/collections/oguzhanercan/video-generation)

Video Generation Backbone Models 收藏集 4 项•更新于2025年4月18日 • 1 (https://huggingface.co/collections/oguzhanercan/video-generation-backbone-models)

GenAI 收藏集 4 项•更新于2025年5月1日 (https://huggingface.co/collections/geezah/genai)

stuff i never have time to read 收藏集 13 项•更新于2月17日 (https://huggingface.co/collections/mattsta/stuff-i-never-have-time-to-read)

浏览包含此论文的5个收藏集 (https://huggingface.co/collections?paper=2504.12626)

在视频生成的下一帧预测模型中打包输入帧上下文

论文页面 - 在用于视频生成的下一帧预测模型中打包输入帧上下文

摘要

社区

引用此论文的模型1个

URWAIFU/framepack-eichi-f1 更新于 2025年7月8日 (https://huggingface.co/URWAIFU/framepack-eichi-f1)

引用此论文的数据集1个

agreeupon/wrkspace-backup-ttl 更新于 2025年7月13日 • 250 (https://huggingface.co/datasets/agreeupon/wrkspace-backup-ttl)

引用此论文的 Space 14个

包含此论文的收藏集5个

Video Generation 收藏集 Video Generation• 51 项•更新于19天前 • 2 (https://huggingface.co/collections/oguzhanercan/video-generation)

Video Generation Backbone Models 收藏集 4 项•更新于2025年4月18日 • 1 (https://huggingface.co/collections/oguzhanercan/video-generation-backbone-models)

GenAI 收藏集 4 项•更新于2025年5月1日 (https://huggingface.co/collections/geezah/genai)

stuff i never have time to read 收藏集 13 项•更新于2月17日 (https://huggingface.co/collections/mattsta/stuff-i-never-have-time-to-read)

相似文章

表征先于像素：语义引导的分层视频预测

LiteFrame: 高效视觉编码器解锁视频大语言模型的帧缩放

FRAPPE: 使用投影追踪编码器的完整输入残差输出自编码

PEEK：通过高效知识蒸馏选取关键帧

SANA-Video：基于块线性扩散变压器的高效视频生成

提交意见反馈