Parallel Rollout Approximation 用于像素空间自回归图像生成
摘要
Parallel Rollout Approximation (PRA) 通过使用低维中间状态和并行训练改进了像素空间自回归图像生成,在ImageNet-1K生成任务上取得了新的最先进结果。
查看缓存全文
缓存时间: 2026/06/29 14:03
论文页面 - 像素空间自回归图像生成的并行展开近似
来源:https://huggingface.co/papers/2606.27978
摘要
并行展开近似(Parallel Rollout Approximation, PRA)解决了像素空间自回归图像生成中的局限性,通过使用低维中间状态和并行训练来提升质量和效率。
像素空间(https://huggingface.co/papers?q=Pixel-space)连续令牌(https://huggingface.co/papers?q=continuous-token)自回归(AR)生成直接以原始像素块序列建模图像,避免了离散分词或单独预训练的分词器。然而,它面临双重挑战:高维像素块生成导致较大的单步误差,且教师强制训练(https://huggingface.co/papers?q=teacher-forced%20training)造成了训练-推理差距,使得这些误差在AR步骤中不断累积。现有的修复方法(如x预测和输入噪声注入)只能部分缓解这些问题。精确展开训练(https://huggingface.co/papers?q=rollout%20training)能更好地匹配推理时条件,但由于顺序采样速度过慢而不切实际。我们提出了并行展开近似(https://huggingface.co/papers?q=Parallel%20Rollout%20Approximation)(PRA),这是一个可扩展的框架,能够同时应对这两个挑战。PRA生成低维中间状态(https://huggingface.co/papers?q=intermediate%20states)而非高维像素块,然后通过像素解码器(https://huggingface.co/papers?q=pixel%20decoder)将其映射回像素空间(https://huggingface.co/papers?q=pixel-space)令牌,从而保留像素输入-像素输出的AR接口。此外,它通过推理时使用的相同中间状态到像素路径,在位置上独立地构建类推理的像素输入,近似推理时展开中遇到的像素反馈接口,同时保留并行教师强制训练(https://huggingface.co/papers?q=teacher-forced%20training)。在256×256分辨率下进行类别条件ImageNet(https://huggingface.co/papers?q=ImageNet)-1K生成时,拥有1.35亿参数的PRA-S取得了2.58的FID(https://huggingface.co/papers?q=FID),超越了之前十亿级像素空间(https://huggingface.co/papers?q=pixel-space)AR模型3.60的结果。扩展到拥有5.11亿参数的PRA-L后,FID(https://huggingface.co/papers?q=FID)进一步提升至1.94,在像素空间(https://huggingface.co/papers?q=pixel-space)AR模型中建立了新的最先进水平。除生成任务外,PRA在ImageNet(https://huggingface.co/papers?q=ImageNet)分类探测准确率上优于其他AR和扩散基线,表明其在统一像素空间(https://huggingface.co/papers?q=pixel-space)图像生成与理解方面的潜力。
查看arXiv页面(https://arxiv.org/abs/2606.27978)查看PDF(https://arxiv.org/pdf/2606.27978)GitHub(https://github.com/MangataX/PRA)添加至收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.27978)
在您的agent中获取此论文:
hf papers read 2606.27978
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
尚无模型链接此论文
在模型README.md中引用arxiv.org/abs/2606.27978以将其链接至此页面。
引用此论文的数据集0
尚无数据集链接此论文
在数据集README.md中引用arxiv.org/abs/2606.27978以将其链接至此页面。
引用此论文的Spaces0
尚无Space链接此论文
在Space README.md中引用arxiv.org/abs/2606.27978以将其链接至此页面。
包含此论文的收藏集0
尚无收藏集包含此论文
添加此论文至一个收藏集(https://huggingface.co/new-collection)以将其链接至此页面。
相似文章
L2P:释放像素生成的潜在潜力
L2P 论文提出了一种潜在空间到像素空间(Latent-to-Pixel)的迁移范式,该范式利用预训练的潜在扩散模型(LDM),以极低的训练开销构建高效的像素空间模型,并实现 4K 分辨率生成。
GEAR:引导式端到端自回归图像合成
GEAR提出了一种通过表示对齐共同训练向量量化分词器和自回归生成器的方法,实现端到端训练,在ImageNet gFID上相比强基线实现高达10倍的收敛速度提升。
prunaai/p-image
P-Image 是 Pruna 的文本到图像生成模型,可在不到一秒内生成最先进的图像,兼具速度、经济性和高质量。
自回归MRI重建中的下一加速尺度预测
使用特权信息蒸馏的离散自回归MRI重建,通过利用视觉自回归建模技术,在极端欠采样条件下实现了卓越的重建性能。
GPT-Image-2 正式推出
OpenAI 正在推出 GPT-Image-2,这是一款全新的图像生成模型,标志着其图像生成能力的重大升级。