在视频生成的下一帧预测模型中打包输入帧上下文
摘要
FramePack是一种神经网络结构,它压缩输入帧,使得Transformer上下文长度固定,不受视频长度影响,从而使视频扩散模型能够处理大量帧,计算瓶颈类似于图像扩散,并提高了批量大小。它还引入了一种抗漂移采样方法,以减少曝光偏差。
查看缓存全文
缓存时间: 2026/05/18 06:41
论文页面 - 在用于视频生成的下一帧预测模型中打包输入帧上下文
来源:https://huggingface.co/papers/2504.12626 论文(https://huggingface.co/papers)arxiv:2504.12626
发布于 2025年4月17日
·
由 https://huggingface.co/BestWishYsh 提交
YSH (https://huggingface.co/BestWishYsh) 于 2025年4月18日
#3 当日论文 (https://huggingface.co/papers/date/2025-04-18) 投票数 51 (https://huggingface.co/login?next=%2Fpapers%2F2504.12626)-
作者:
,
摘要
FramePack 是一种用于视频生成的神经网络,它通过压缩帧来管理 Transformer 的上下文长度,并通过增加批大小和改进帧预测来增强视频扩散模型。
AI 生成的摘要
我们提出了一种名为 FramePack (https://huggingface.co/papers?q=FramePack) 的神经网络 (https://huggingface.co/papers?q=neural%20network) 结构,用于训练视频生成的下一帧(或下一帧切片)预测模型。FramePack 压缩输入帧,使得 Transformer (https://huggingface.co/papers?q=transformer) 的上下文长度 (https://huggingface.co/papers?q=context%20length) 无论视频长度如何都保持固定数量。因此,我们能够利用视频扩散 (https://huggingface.co/papers?q=video%20diffusion) 处理大量帧,计算瓶颈 (https://huggingface.co/papers?q=computation%20bottleneck) 与图像扩散 (https://huggingface.co/papers?q=image%20diffusion) 类似。这也使得训练视频的批大小 (https://huggingface.co/papers?q=batch%20size) 显著提高(批大小变得与图像扩散 (https://huggingface.co/papers?q=image%20diffusion) 训练可比)。我们还提出了一种抗漂移采样 (https://huggingface.co/papers?q=anti-drifting%20sampling) 方法,以逆时间顺序生成帧,并预先确立端点,以避免暴露偏差 (https://huggingface.co/papers?q=exposure%20bias)(迭代过程中的误差累积)。最后,我们展示了现有的视频扩散 (https://huggingface.co/papers?q=video%20diffusion) 模型可以通过 FramePack (https://huggingface.co/papers?q=FramePack) 进行微调,并且其视觉质量可能得到提升,因为下一帧预测 (https://huggingface.co/papers?q=next-frame%20prediction) 支持更均衡的扩散调度器,减少了极端流偏移 (https://huggingface.co/papers?q=flow%20shift) 时间步。
查看 arXiv 页面 (https://arxiv.org/abs/2504.12626)查看 PDF (https://arxiv.org/pdf/2504.12626)项目页面 (https://lllyasviel.github.io/frame_pack_gitpage/)GitHub16.9k (https://github.com/lllyasviel/FramePack)添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2504.12626)
社区
BestWishYsh (https://huggingface.co/BestWishYsh)
论文提交者
2025年4月18日 (https://huggingface.co/papers/2504.12626#6801b654dc06cd86c9a42ebc)
•
已编辑于 2025年4月18日 (https://huggingface.co/papers/2504.12626#6801b654dc06cd86c9a42ebc)
代码:https://github.com/lllyasviel/FramePack 页面:https://lllyasviel.github.io/frame_pack_gitpage
librarian-bot (https://huggingface.co/librarian-bot)
2025年4月19日 (https://huggingface.co/papers/2504.12626#6802fde6744bfbce275cf900)
这是来自 Librarian Bot (https://huggingface.co/librarian-bots) 的自动消息。我找到了以下与本文相似的论文。
以下论文由 Semantic Scholar API 推荐:
- VGDFR: Diffusion-based Video Generation with Dynamic Latent Frame Rate (https://huggingface.co/papers/2504.12259) (2025)
- Long-Context Autoregressive Video Modeling with Next-Frame Prediction (https://huggingface.co/papers/2503.19325) (2025)
- HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models (https://huggingface.co/papers/2503.11513) (2025)
- AR-Diffusion: Asynchronous Video Generation with Auto-Regressive Diffusion (https://huggingface.co/papers/2503.07418) (2025)
- Generating, Fast and Slow: Scalable Parallel Video Generation with Video Interface Networks (https://huggingface.co/papers/2503.17539) (2025)
- LongDiff: Training-Free Long Video Generation in One Go (https://huggingface.co/papers/2503.18150) (2025)
- Long Context Tuning for Video Generation (https://huggingface.co/papers/2503.10589) (2025)
如果您觉得有帮助,请点赞此评论!
如果您想获得 Hugging Face 上任意论文的推荐,请查看此 (https://huggingface.co/spaces/librarian-bots/recommend_similar_papers) Space
您可以通过在评论中标记 @librarian\-bot recommend 直接向 Librarian Bot 请求论文推荐。
deleted
2025年4月25日 (https://huggingface.co/papers/2504.12626#680ade124868e7e6bedd5956)
此评论已被隐藏
通过拖拽、粘贴或点击此处 (https://huggingface.co/papers/2504.12626#) 上传图像、音频和视频。
点击或粘贴此处上传图像
·注册 (https://huggingface.co/join?next=%2Fpapers%2F2504.12626)或登录 (https://huggingface.co/login?next=%2Fpapers%2F2504.12626)以评论
投票数 51 (https://huggingface.co/login?next=%2Fpapers%2F2504.12626)-
在您的代理中获取此论文:
hf papers read 2504\.12626
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型1个
URWAIFU/framepack-eichi-f1 更新于 2025年7月8日 (https://huggingface.co/URWAIFU/framepack-eichi-f1)
引用此论文的数据集1个
agreeupon/wrkspace-backup-ttl 更新于 2025年7月13日 • 250 (https://huggingface.co/datasets/agreeupon/wrkspace-backup-ttl)
引用此论文的 Space 14个
📹⚡️ linoyts/FramePack-F1 (https://huggingface.co/spaces/linoyts/FramePack-F1)📹⚡️ makululinux/FramePack-F1 (https://huggingface.co/spaces/makululinux/FramePack-F1)📹⚡️ ObiJuanCodenobi/VidGen-Emilio (https://huggingface.co/spaces/ObiJuanCodenobi/VidGen-Emilio)🚀 jameschen414/FramePack (https://huggingface.co/spaces/jameschen414/FramePack)📊 rajux75/FramePack (https://huggingface.co/spaces/rajux75/FramePack)🚀 YuliyaAether/FramePack-Demo (https://huggingface.co/spaces/YuliyaAether/FramePack-Demo)📹⚡️ Dzlll/FramePackF1 (https://huggingface.co/spaces/Dzlll/FramePackF1)📹⚡️ inoculatemedia/FramePack-F1 (https://huggingface.co/spaces/inoculatemedia/FramePack-F1)
包含此论文的收藏集5个
Video Generation 收藏集 Video Generation• 51 项•更新于19天前 • 2 (https://huggingface.co/collections/oguzhanercan/video-generation)
Video Generation Backbone Models 收藏集 4 项•更新于2025年4月18日 • 1 (https://huggingface.co/collections/oguzhanercan/video-generation-backbone-models)
GenAI 收藏集 4 项•更新于2025年5月1日 (https://huggingface.co/collections/geezah/genai)
stuff i never have time to read 收藏集 13 项•更新于2月17日 (https://huggingface.co/collections/mattsta/stuff-i-never-have-time-to-read)
浏览包含此论文的5个收藏集 (https://huggingface.co/collections?paper=2504.12626)
相似文章
表征先于像素:语义引导的分层视频预测
Re2Pix 是一个分层视频预测框架,通过首先使用冻结的视觉基础模型预测语义表征,然后将这些预测作为条件输入到潜在扩散模型中以生成逼真的帧,从而改进未来视频生成。该方法通过嵌套丢弃和混合监督策略解决了训练-测试不匹配问题,在自动驾驶基准测试中实现了更好的时间语义一致性和感知质量。
LiteFrame: 高效视觉编码器解锁视频大语言模型的帧缩放
LiteFrame提出了一种轻量级视频编码器,采用压缩令牌蒸馏(Compressed Token Distillation)训练,可降低延迟,并使视频大语言模型能够处理8倍以上的帧数以实现长视频理解,在降低计算量的同时提高准确性。
FRAPPE: 使用投影追踪编码器的完整输入残差输出自编码
FRAPPE是一种新颖的自编码框架,使用投影追踪编码器从完整输入预测残差,实现了高效的变速率图像压缩和快速的CPU编码。在高压缩比下,FRAPPE-Image在感知质量上优于AVIF,编码速度快47倍,使得仅使用CPU即可实现实时1080p 30fps编码。
PEEK:通过高效知识蒸馏选取关键帧
介绍PEEK,一种高效动态帧采样方法,它从教师模型中蒸馏出字幕条件帧相关性排名,并将其融入轻量级时序模型,在视频字幕生成中优于最先进方法,同时保持计算效率。
SANA-Video:基于块线性扩散变压器的高效视频生成
SANA-Video是一个小型扩散模型,利用线性注意力和恒定内存KV缓存,高效生成高分辨率、长时长的视频,以显著更低的成本和更快的速度实现与现有模型相媲美的性能。