Parallel Rollout Approximation 用于像素空间自回归图像生成

Hugging Face Daily Papers 2026/06/26 00:00 论文

pixel-space autoregressive image-generation parallel-rollout intermediate-states imagenet

摘要

Parallel Rollout Approximation (PRA) 通过使用低维中间状态和并行训练改进了像素空间自回归图像生成，在ImageNet-1K生成任务上取得了新的最先进结果。

像素空间连续令牌自回归（AR）生成直接将图像建模为原始像素块的序列，避免了离散分词化或单独预训练的分词器。然而，它面临着耦合的挑战：高维块生成导致大的单步误差，而教师强制训练造成了训练-推理差距，使得这些误差在AR步骤中累积。现有的修复方法如x预测和输入噪声注入只能部分缓解这些问题。精确的展开训练能更好地匹配推理时的条件，但由于极其缓慢的顺序采样而不可行。我们提出了Parallel Rollout Approximation (PRA)，一个可扩展的框架，同时解决了这两个挑战。PRA生成低维中间状态而不是高维像素块，然后通过像素解码器将它们映射回像素空间令牌，保持了像素输入-像素输出的AR接口。它还通过相同的中间状态到像素路径（在推理时使用）独立地跨位置构建类似推理的像素输入，近似推理时展开期间遇到的像素反馈接口，同时保留并行的教师强制训练。在条件ImageNet-1K 256×256分辨率生成上，拥有135M参数的PRA-S实现了FID为2.58，超过了之前十亿级像素空间AR结果的3.60。将PRA-L扩展到511M参数，进一步将FID提升至1.94，在像素空间AR模型中建立了新的最先进水平。除了生成，PRA在ImageNet分类探测准确率上也超过了其他AR和扩散基线，表明其在统一像素空间图像生成和理解方面的潜力。

查看原文

查看缓存全文

缓存时间: 2026/06/29 14:03

论文页面 - 像素空间自回归图像生成的并行展开近似

来源：https://huggingface.co/papers/2606.27978

摘要

并行展开近似（Parallel Rollout Approximation, PRA）解决了像素空间自回归图像生成中的局限性，通过使用低维中间状态和并行训练来提升质量和效率。

像素空间（https://huggingface.co/papers?q=Pixel-space）连续令牌（https://huggingface.co/papers?q=continuous-token）自回归（AR）生成直接以原始像素块序列建模图像，避免了离散分词或单独预训练的分词器。然而，它面临双重挑战：高维像素块生成导致较大的单步误差，且教师强制训练（https://huggingface.co/papers?q=teacher-forced%20training）造成了训练-推理差距，使得这些误差在AR步骤中不断累积。现有的修复方法（如x预测和输入噪声注入）只能部分缓解这些问题。精确展开训练（https://huggingface.co/papers?q=rollout%20training）能更好地匹配推理时条件，但由于顺序采样速度过慢而不切实际。我们提出了并行展开近似（https://huggingface.co/papers?q=Parallel%20Rollout%20Approximation）（PRA），这是一个可扩展的框架，能够同时应对这两个挑战。PRA生成低维中间状态（https://huggingface.co/papers?q=intermediate%20states）而非高维像素块，然后通过像素解码器（https://huggingface.co/papers?q=pixel%20decoder）将其映射回像素空间（https://huggingface.co/papers?q=pixel-space）令牌，从而保留像素输入-像素输出的AR接口。此外，它通过推理时使用的相同中间状态到像素路径，在位置上独立地构建类推理的像素输入，近似推理时展开中遇到的像素反馈接口，同时保留并行教师强制训练（https://huggingface.co/papers?q=teacher-forced%20training）。在256×256分辨率下进行类别条件ImageNet（https://huggingface.co/papers?q=ImageNet）-1K生成时，拥有1.35亿参数的PRA-S取得了2.58的FID（https://huggingface.co/papers?q=FID），超越了之前十亿级像素空间（https://huggingface.co/papers?q=pixel-space）AR模型3.60的结果。扩展到拥有5.11亿参数的PRA-L后，FID（https://huggingface.co/papers?q=FID）进一步提升至1.94，在像素空间（https://huggingface.co/papers?q=pixel-space）AR模型中建立了新的最先进水平。除生成任务外，PRA在ImageNet（https://huggingface.co/papers?q=ImageNet）分类探测准确率上优于其他AR和扩散基线，表明其在统一像素空间（https://huggingface.co/papers?q=pixel-space）图像生成与理解方面的潜力。

查看arXiv页面（https://arxiv.org/abs/2606.27978）查看PDF（https://arxiv.org/pdf/2606.27978）GitHub（https://github.com/MangataX/PRA）添加至收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.27978）

在您的agent中获取此论文：

hf papers read 2606.27978

没有最新的CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

尚无模型链接此论文

在模型README.md中引用arxiv.org/abs/2606.27978以将其链接至此页面。

引用此论文的数据集0

尚无数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2606.27978以将其链接至此页面。

引用此论文的Spaces0

尚无Space链接此论文

在Space README.md中引用arxiv.org/abs/2606.27978以将其链接至此页面。

包含此论文的收藏集0

尚无收藏集包含此论文

添加此论文至一个收藏集（https://huggingface.co/new-collection）以将其链接至此页面。

Parallel Rollout Approximation 用于像素空间自回归图像生成

论文页面 - 像素空间自回归图像生成的并行展开近似

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Spaces0

包含此论文的收藏集0

相似文章

L2P：释放像素生成的潜在潜力

GEAR：引导式端到端自回归图像合成

prunaai/p-image

自回归MRI重建中的下一加速尺度预测

GPT-Image-2 正式推出

提交意见反馈