在视频生成的下一帧预测模型中打包输入帧上下文

Papers with Code Trending 论文

摘要

FramePack是一种神经网络结构,它压缩输入帧,使得Transformer上下文长度固定,不受视频长度影响,从而使视频扩散模型能够处理大量帧,计算瓶颈类似于图像扩散,并提高了批量大小。它还引入了一种抗漂移采样方法,以减少曝光偏差。

我们提出了一种名为FramePack的神经网络结构,用于训练视频生成中的下一帧(或下一帧段)预测模型。FramePack压缩输入帧,使得Transformer上下文长度固定为常数,与视频长度无关。因此,我们能够使用视频扩散处理大量帧,计算瓶颈与图像扩散相似。这也使得训练视频的批量大小显著提高(批量大小变得与图像扩散训练相当)。我们还提出了一种抗漂移采样方法,该方法以倒序时间顺序生成帧,并预先建立端点以避免曝光偏差(迭代中的误差累积)。最后,我们展示了现有的视频扩散模型可以通过FramePack进行微调,并且其视觉质量可能得到改善,因为下一帧预测支持更平衡的扩散调度器,具有不太极端的流偏移时间步长。
查看原文
查看缓存全文

缓存时间: 2026/05/18 06:41

论文页面 - 在用于视频生成的下一帧预测模型中打包输入帧上下文

来源:https://huggingface.co/papers/2504.12626 论文(https://huggingface.co/papers)arxiv:2504.12626

发布于 2025年4月17日

·

由 https://huggingface.co/BestWishYsh 提交

YSH (https://huggingface.co/BestWishYsh) 于 2025年4月18日

#3 当日论文 (https://huggingface.co/papers/date/2025-04-18) 投票数 51 (https://huggingface.co/login?next=%2Fpapers%2F2504.12626)-

作者:

,

摘要

FramePack 是一种用于视频生成的神经网络,它通过压缩帧来管理 Transformer 的上下文长度,并通过增加批大小和改进帧预测来增强视频扩散模型。

AI 生成的摘要

我们提出了一种名为 FramePack (https://huggingface.co/papers?q=FramePack) 的神经网络 (https://huggingface.co/papers?q=neural%20network) 结构,用于训练视频生成的下一帧(或下一帧切片)预测模型。FramePack 压缩输入帧,使得 Transformer (https://huggingface.co/papers?q=transformer) 的上下文长度 (https://huggingface.co/papers?q=context%20length) 无论视频长度如何都保持固定数量。因此,我们能够利用视频扩散 (https://huggingface.co/papers?q=video%20diffusion) 处理大量帧,计算瓶颈 (https://huggingface.co/papers?q=computation%20bottleneck) 与图像扩散 (https://huggingface.co/papers?q=image%20diffusion) 类似。这也使得训练视频的批大小 (https://huggingface.co/papers?q=batch%20size) 显著提高(批大小变得与图像扩散 (https://huggingface.co/papers?q=image%20diffusion) 训练可比)。我们还提出了一种抗漂移采样 (https://huggingface.co/papers?q=anti-drifting%20sampling) 方法,以逆时间顺序生成帧,并预先确立端点,以避免暴露偏差 (https://huggingface.co/papers?q=exposure%20bias)(迭代过程中的误差累积)。最后,我们展示了现有的视频扩散 (https://huggingface.co/papers?q=video%20diffusion) 模型可以通过 FramePack (https://huggingface.co/papers?q=FramePack) 进行微调,并且其视觉质量可能得到提升,因为下一帧预测 (https://huggingface.co/papers?q=next-frame%20prediction) 支持更均衡的扩散调度器,减少了极端流偏移 (https://huggingface.co/papers?q=flow%20shift) 时间步。

查看 arXiv 页面 (https://arxiv.org/abs/2504.12626)查看 PDF (https://arxiv.org/pdf/2504.12626)项目页面 (https://lllyasviel.github.io/frame_pack_gitpage/)GitHub16.9k (https://github.com/lllyasviel/FramePack)添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2504.12626)

社区

BestWishYsh (https://huggingface.co/BestWishYsh)

论文提交者

2025年4月18日 (https://huggingface.co/papers/2504.12626#6801b654dc06cd86c9a42ebc)

已编辑于 2025年4月18日 (https://huggingface.co/papers/2504.12626#6801b654dc06cd86c9a42ebc)

代码:https://github.com/lllyasviel/FramePack 页面:https://lllyasviel.github.io/frame_pack_gitpage

librarian-bot (https://huggingface.co/librarian-bot)

2025年4月19日 (https://huggingface.co/papers/2504.12626#6802fde6744bfbce275cf900)

这是来自 Librarian Bot (https://huggingface.co/librarian-bots) 的自动消息。我找到了以下与本文相似的论文。

以下论文由 Semantic Scholar API 推荐:

  • VGDFR: Diffusion-based Video Generation with Dynamic Latent Frame Rate (https://huggingface.co/papers/2504.12259) (2025)
  • Long-Context Autoregressive Video Modeling with Next-Frame Prediction (https://huggingface.co/papers/2503.19325) (2025)
  • HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models (https://huggingface.co/papers/2503.11513) (2025)
  • AR-Diffusion: Asynchronous Video Generation with Auto-Regressive Diffusion (https://huggingface.co/papers/2503.07418) (2025)
  • Generating, Fast and Slow: Scalable Parallel Video Generation with Video Interface Networks (https://huggingface.co/papers/2503.17539) (2025)
  • LongDiff: Training-Free Long Video Generation in One Go (https://huggingface.co/papers/2503.18150) (2025)
  • Long Context Tuning for Video Generation (https://huggingface.co/papers/2503.10589) (2025)

如果您觉得有帮助,请点赞此评论!

如果您想获得 Hugging Face 上任意论文的推荐,请查看此 (https://huggingface.co/spaces/librarian-bots/recommend_similar_papers) Space

您可以通过在评论中标记 @librarian\-bot recommend 直接向 Librarian Bot 请求论文推荐。

deleted

2025年4月25日 (https://huggingface.co/papers/2504.12626#680ade124868e7e6bedd5956)

此评论已被隐藏

通过拖拽、粘贴或点击此处 (https://huggingface.co/papers/2504.12626#) 上传图像、音频和视频。

点击或粘贴此处上传图像

·注册 (https://huggingface.co/join?next=%2Fpapers%2F2504.12626)或登录 (https://huggingface.co/login?next=%2Fpapers%2F2504.12626)以评论

投票数 51 (https://huggingface.co/login?next=%2Fpapers%2F2504.12626)-

在您的代理中获取此论文:

hf papers read 2504\.12626

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型1个

URWAIFU/framepack-eichi-f1 更新于 2025年7月8日 (https://huggingface.co/URWAIFU/framepack-eichi-f1)

引用此论文的数据集1个

agreeupon/wrkspace-backup-ttl 更新于 2025年7月13日 • 250 (https://huggingface.co/datasets/agreeupon/wrkspace-backup-ttl)

引用此论文的 Space 14个

📹⚡️ linoyts/FramePack-F1 (https://huggingface.co/spaces/linoyts/FramePack-F1)📹⚡️ makululinux/FramePack-F1 (https://huggingface.co/spaces/makululinux/FramePack-F1)📹⚡️ ObiJuanCodenobi/VidGen-Emilio (https://huggingface.co/spaces/ObiJuanCodenobi/VidGen-Emilio)🚀 jameschen414/FramePack (https://huggingface.co/spaces/jameschen414/FramePack)📊 rajux75/FramePack (https://huggingface.co/spaces/rajux75/FramePack)🚀 YuliyaAether/FramePack-Demo (https://huggingface.co/spaces/YuliyaAether/FramePack-Demo)📹⚡️ Dzlll/FramePackF1 (https://huggingface.co/spaces/Dzlll/FramePackF1)📹⚡️ inoculatemedia/FramePack-F1 (https://huggingface.co/spaces/inoculatemedia/FramePack-F1)

包含此论文的收藏集5个

Video Generation 收藏集 Video Generation• 51 项•更新于19天前 • 2 (https://huggingface.co/collections/oguzhanercan/video-generation)

Video Generation Backbone Models 收藏集 4 项•更新于2025年4月18日 • 1 (https://huggingface.co/collections/oguzhanercan/video-generation-backbone-models)

GenAI 收藏集 4 项•更新于2025年5月1日 (https://huggingface.co/collections/geezah/genai)

stuff i never have time to read 收藏集 13 项•更新于2月17日 (https://huggingface.co/collections/mattsta/stuff-i-never-have-time-to-read)

浏览包含此论文的5个收藏集 (https://huggingface.co/collections?paper=2504.12626)

相似文章

表征先于像素:语义引导的分层视频预测

Hugging Face Daily Papers

Re2Pix 是一个分层视频预测框架,通过首先使用冻结的视觉基础模型预测语义表征,然后将这些预测作为条件输入到潜在扩散模型中以生成逼真的帧,从而改进未来视频生成。该方法通过嵌套丢弃和混合监督策略解决了训练-测试不匹配问题,在自动驾驶基准测试中实现了更好的时间语义一致性和感知质量。

LiteFrame: 高效视觉编码器解锁视频大语言模型的帧缩放

Hugging Face Daily Papers

LiteFrame提出了一种轻量级视频编码器,采用压缩令牌蒸馏(Compressed Token Distillation)训练,可降低延迟,并使视频大语言模型能够处理8倍以上的帧数以实现长视频理解,在降低计算量的同时提高准确性。

FRAPPE: 使用投影追踪编码器的完整输入残差输出自编码

Hugging Face Daily Papers

FRAPPE是一种新颖的自编码框架,使用投影追踪编码器从完整输入预测残差,实现了高效的变速率图像压缩和快速的CPU编码。在高压缩比下,FRAPPE-Image在感知质量上优于AVIF,编码速度快47倍,使得仅使用CPU即可实现实时1080p 30fps编码。

PEEK:通过高效知识蒸馏选取关键帧

Hugging Face Daily Papers

介绍PEEK,一种高效动态帧采样方法,它从教师模型中蒸馏出字幕条件帧相关性排名,并将其融入轻量级时序模型,在视频字幕生成中优于最先进方法,同时保持计算效率。