Parallel Rollout Approximation 用于像素空间自回归图像生成

Hugging Face Daily Papers 论文

摘要

Parallel Rollout Approximation (PRA) 通过使用低维中间状态和并行训练改进了像素空间自回归图像生成,在ImageNet-1K生成任务上取得了新的最先进结果。

像素空间连续令牌自回归(AR)生成直接将图像建模为原始像素块的序列,避免了离散分词化或单独预训练的分词器。然而,它面临着耦合的挑战:高维块生成导致大的单步误差,而教师强制训练造成了训练-推理差距,使得这些误差在AR步骤中累积。现有的修复方法如x预测和输入噪声注入只能部分缓解这些问题。精确的展开训练能更好地匹配推理时的条件,但由于极其缓慢的顺序采样而不可行。我们提出了Parallel Rollout Approximation (PRA),一个可扩展的框架,同时解决了这两个挑战。PRA生成低维中间状态而不是高维像素块,然后通过像素解码器将它们映射回像素空间令牌,保持了像素输入-像素输出的AR接口。它还通过相同的中间状态到像素路径(在推理时使用)独立地跨位置构建类似推理的像素输入,近似推理时展开期间遇到的像素反馈接口,同时保留并行的教师强制训练。在条件ImageNet-1K 256×256分辨率生成上,拥有135M参数的PRA-S实现了FID为2.58,超过了之前十亿级像素空间AR结果的3.60。将PRA-L扩展到511M参数,进一步将FID提升至1.94,在像素空间AR模型中建立了新的最先进水平。除了生成,PRA在ImageNet分类探测准确率上也超过了其他AR和扩散基线,表明其在统一像素空间图像生成和理解方面的潜力。
查看原文
查看缓存全文

缓存时间: 2026/06/29 14:03

论文页面 - 像素空间自回归图像生成的并行展开近似

来源:https://huggingface.co/papers/2606.27978

摘要

并行展开近似(Parallel Rollout Approximation, PRA)解决了像素空间自回归图像生成中的局限性,通过使用低维中间状态和并行训练来提升质量和效率。

像素空间(https://huggingface.co/papers?q=Pixel-space)连续令牌(https://huggingface.co/papers?q=continuous-token)自回归(AR)生成直接以原始像素块序列建模图像,避免了离散分词或单独预训练的分词器。然而,它面临双重挑战:高维像素块生成导致较大的单步误差,且教师强制训练(https://huggingface.co/papers?q=teacher-forced%20training)造成了训练-推理差距,使得这些误差在AR步骤中不断累积。现有的修复方法(如x预测和输入噪声注入)只能部分缓解这些问题。精确展开训练(https://huggingface.co/papers?q=rollout%20training)能更好地匹配推理时条件,但由于顺序采样速度过慢而不切实际。我们提出了并行展开近似(https://huggingface.co/papers?q=Parallel%20Rollout%20Approximation)(PRA),这是一个可扩展的框架,能够同时应对这两个挑战。PRA生成低维中间状态(https://huggingface.co/papers?q=intermediate%20states)而非高维像素块,然后通过像素解码器(https://huggingface.co/papers?q=pixel%20decoder)将其映射回像素空间(https://huggingface.co/papers?q=pixel-space)令牌,从而保留像素输入-像素输出的AR接口。此外,它通过推理时使用的相同中间状态到像素路径,在位置上独立地构建类推理的像素输入,近似推理时展开中遇到的像素反馈接口,同时保留并行教师强制训练(https://huggingface.co/papers?q=teacher-forced%20training)。在256×256分辨率下进行类别条件ImageNet(https://huggingface.co/papers?q=ImageNet)-1K生成时,拥有1.35亿参数的PRA-S取得了2.58的FID(https://huggingface.co/papers?q=FID),超越了之前十亿级像素空间(https://huggingface.co/papers?q=pixel-space)AR模型3.60的结果。扩展到拥有5.11亿参数的PRA-L后,FID(https://huggingface.co/papers?q=FID)进一步提升至1.94,在像素空间(https://huggingface.co/papers?q=pixel-space)AR模型中建立了新的最先进水平。除生成任务外,PRA在ImageNet(https://huggingface.co/papers?q=ImageNet)分类探测准确率上优于其他AR和扩散基线,表明其在统一像素空间(https://huggingface.co/papers?q=pixel-space)图像生成与理解方面的潜力。

查看arXiv页面(https://arxiv.org/abs/2606.27978)查看PDF(https://arxiv.org/pdf/2606.27978)GitHub(https://github.com/MangataX/PRA)添加至收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.27978)

在您的agent中获取此论文:

hf papers read 2606.27978

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

尚无模型链接此论文

在模型README.md中引用arxiv.org/abs/2606.27978以将其链接至此页面。

引用此论文的数据集0

尚无数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2606.27978以将其链接至此页面。

引用此论文的Spaces0

尚无Space链接此论文

在Space README.md中引用arxiv.org/abs/2606.27978以将其链接至此页面。

包含此论文的收藏集0

尚无收藏集包含此论文

添加此论文至一个收藏集(https://huggingface.co/new-collection)以将其链接至此页面。

相似文章

L2P:释放像素生成的潜在潜力

Hugging Face Daily Papers

L2P 论文提出了一种潜在空间到像素空间(Latent-to-Pixel)的迁移范式,该范式利用预训练的潜在扩散模型(LDM),以极低的训练开销构建高效的像素空间模型,并实现 4K 分辨率生成。

GEAR:引导式端到端自回归图像合成

Hugging Face Daily Papers

GEAR提出了一种通过表示对齐共同训练向量量化分词器和自回归生成器的方法,实现端到端训练,在ImageNet gFID上相比强基线实现高达10倍的收敛速度提升。

prunaai/p-image

Replicate Explore

P-Image 是 Pruna 的文本到图像生成模型,可在不到一秒内生成最先进的图像,兼具速度、经济性和高质量。

GPT-Image-2 正式推出

Reddit r/singularity

OpenAI 正在推出 GPT-Image-2,这是一款全新的图像生成模型,标志着其图像生成能力的重大升级。