UltraFlux：数据-模型协同设计实现多种宽高比下的高质量原生4K文本到图像生成

arXiv cs.AI 2026/07/02 04:00 论文

摘要

UltraFlux 提出了一种数据-模型协同设计方法，用于多种宽高比下的原生4K文本到图像生成，解决了位置编码、VAE压缩和优化挑战。它优于现有的开源基线，并达到了与 Seedream 4.0 等专有模型相当的水平。

arXiv:2511.18050v1 公告类型：交叉摘要：扩散变压器最近在约1K分辨率下实现了强大的文本到图像生成，但我们发现将其扩展到多种宽高比的原生4K时，会出现一个密切耦合的故障模式，涉及位置编码、VAE压缩和优化。单独处理这些因素中的任何一个都会导致质量大幅下降。因此，我们采用数据-模型协同设计的视角，推出了UltraFlux，这是一个基于Flux的DiT，在MultiAspect-4K-1M（一个包含100万张4K图像的数据集，具有受控的多宽高比覆盖、双语标题以及丰富的VLM/IQA元数据，用于分辨率和宽高比感知采样）上以原生4K进行训练。在模型方面，UltraFlux结合了：(i) 将Resonance 2D RoPE与YaRN相结合，用于4K下的训练窗口、频率和宽高比感知位置编码；(ii) 一种简单的非对抗性VAE后训练方案，提高了4K重建保真度；(iii) 一种SNR感知的Huber小波目标函数，重新平衡了时间步和频带之间的梯度；(iv) 一种分阶段的美学课程学习策略，将高美学监督集中在由模型先验控制的高噪声步骤上。这些组件共同产生了一个稳定且保留细节的4K DiT，能够泛化到宽、方、高各种宽高比。在Aesthetic-Eval@4096基准测试和多宽高比4K设置中，UltraFlux在保真度、美学和对齐指标上持续优于强大的开源基线，并且通过LLM提示精细化，达到或超越了专有模型Seedream 4.0。

查看原文

查看缓存全文

缓存时间: 2026/07/02 05:41

# UltraFlux：面向原生4K多宽高比文本到图像生成的数据-模型协同设计

来源：https://arxiv.org/html/2511.18050
田晔 宋飞¹ 朱磊  
HKUST(广州) HKUST(广州) HKUST, HKUST(广州)  
[email protected]  [email protected]  [email protected]  
项目页面：https://w2genai-lab.github.io/UltraFlux/  代码：https://github.com/W2GenAI-Lab/UltraFlux

###### 摘要

扩散变换器最近在约1K分辨率下实现了强大的文本到图像生成能力，但我们表明，将其扩展到*原生4K*并覆盖多种宽高比时，会暴露出一个紧密耦合的失效模式，涉及位置编码、VAE压缩和优化。单独处理其中任何一个因素都会留下大量质量损失。因此，我们采取数据-模型协同设计的视角，引入*UltraFlux*，这是一个基于Flux的DiT，在*MultiAspect-4K-1M*（一个包含100万张4K图像的语料库，具有可控的多宽高比覆盖、双语字幕和丰富的VLM/IQA元数据，用于分辨率和宽高比感知采样）上以4K原生分辨率训练。在模型方面，UltraFlux结合了：(i) *Resonance 2D RoPE with YaRN*，用于在4K下实现训练窗口感知、频带感知和宽高比感知的位置编码；(ii) 一种简单、非对抗性的VAE后训练方案，提高了4K重建保真度；(iii) *信噪比感知的Huber小波目标*，重新平衡了时间步和频带间的梯度；以及(iv) *分阶段美学课程学习*策略，将高美学监督集中在模型先验主导的高噪声步骤上。这些组件共同产生了一个稳定、细节保留的4K DiT，能够泛化到宽屏、方形和高屏等宽高比。在Aesthetic-Eval@4096基准和多宽高比4K设置下，UltraFlux在保真度、美学和对齐指标上持续优于强大的开源基线，并且——配合LLM提示优化器——能够匹配或超越专有的Seedream 4.0。

## 1 引言

扩散变换器（DiT）[peebles2023scalable, batifol2025flux, esser2024scaling, chen2024pixart, xie2024sana] 近期通过高效的骨干网络、令牌压缩以及精心调优的训练流程[chen2024pixart, xie2024sana]，将文本到图像生成的质量提升到了约1K分辨率的惊人水平。然而，将这些系统扩展到*原生4K*并支持广泛的宽高比（AR）并非简单的分辨率缩放问题。在4096×4096及以上分辨率，我们经验性地观察到三个耦合的挑战：(i) *位置表示和宽高比外推*，在单一训练窗口上校准的二维旋转嵌入在分辨率和宽高比发生较大变化时可能会出现漂移或混叠[peng2023yarn, zhang2024hirope]；(ii) *VAE压缩下的高频保真度*，更高的下采样因子提高了吞吐量但往往抹去了主导4K感知的精细结构[xie2024sana, zhang2025diffusion]；(iii) *4K感知优化*，梯度贡献在时间步和频带之间变得严重倾斜，使得标准目标函数与4K潜变量的统计特性不匹配[hang2023efficient, zhang2025diffusion]。这些因素相互影响：位置编码方案、VAE压缩比和训练目标的联合选择决定了模型能否在原生4K分辨率和多样宽高比下保持稳定性和细节。

在模型方面，几种缩放策略部分解决了这些问题，但留下了碎片化的整体设计空间。训练自由的高分辨率方法在推理时缓解了拼贴伪影和重复问题，但很大程度上保留了底层的位置编码，并非为系统的多宽高比外推而设计[zhang2024hidiffusion, huang2024fouriscale]。基于全局-局部融合或拼贴扩散的解码器端方法提高了尺寸灵活性，但引入了新的失效模式，例如拼贴之间的连贯性缺口或严重依赖全局先验来保持一致性[haji2024elasticdiffusion, bar2023multidiffusion]。原生4K系统[yu2025ultra, liu2024clear] 展示了精心设计的骨干网络可以使4K训练变得可行[chen2024pixart, xie2024sana]，但大多数强调令牌/架构效率，并将*位置鲁棒性、VAE压缩和损失设计*视为大致正交的选择，而不是一个联合优化的4K机制。

4K的进展进一步受到数据本身的限制。公开的4K语料库通常规模适中（数量级为10^4至10^5张图像），严重偏向近正方形宽高比和以风景为中心的内容，并且使用早期的基于CLIP的美学预测器进行策展。例如，Aesthetic-4K通过组装高质量4K图像-文本对并配合GPT-4O字幕迈出了重要一步[zhang2025diffusion]，但其规模和宽高比覆盖对于研究*分辨率-宽高比耦合*仍然有限，并且其主题分布缺乏以人为中心的场景。更关键的是，现有的4K数据集很少提供现代4K训练所需的*结构化元数据*。因此，实践者对采样针对特定训练制度（例如，高细节或高美学子集）量身定制的数据切片的控制有限，并且难以进行细粒度的美学或宽高比条件分析。

在优化和适配方面，近期的工作探索了互补但尚不完整的几个方向。原生分辨率下的小波感知目标通过更好地强调高频内容，在强骨干网络上提高了保真度[zhang2025diffusion]，但它们通常结合简单的二次或感知惩罚，因此仍然容易受到低频能量跨尺度主导的影响。潜空间超分辨率和自级联方案在原始训练分辨率之外锐化细节，并降低了高分辨率迁移的成本[jeong2025latent, guo2024make]，但它们作为固定骨干网络上的事后适配器运行，并未解决VAE压缩与4K重建保真度之间的根本权衡。与此同时，时间步课程在保持数据分布不变的情况下调整噪声采样，而美学后训练则是将高美学数据均匀地应用于所有时间步，留下了*高噪声步骤——即那些最受模型先验支配的步骤——通过高美学监督进行选择性塑造*这一尚未探索的领域。最后，现有的RoPE插值和NTK风格缩放策略主要是为1D序列长度外推开发的，并且对于*在强烈变化的宽高比下原生4K的2D令牌网格*提供的指导很少，因为未对齐的相位行为表现为鬼影、漂移和条纹伪影。总之，原生4K多宽高比生成仍然缺乏一个统一的框架，该框架结合：(i) 一个大规模、多宽高比、内容多样、由VLM策展的4K语料库，带有丰富的元数据；(ii) 一个高效、非对抗性的VAE后训练策略，在不牺牲吞吐量的情况下提高4K重建；(iii) 一个信噪比感知的Huber小波训练目标和与4K统计特性匹配的分阶段美学课程；(iv) 一个训练窗口感知、频带感知和宽高比感知的位置编码方案。在这项工作中，我们明确针对这个数据-模型协同设计空间。

具体来说，我们做出以下贡献：

- • **MultiAspect-4K-1M：一个大规模、多宽高比、美学策展的4K语料库。** 我们构建了一个100万规模的4K数据集，具有原生4K和接近4K分辨率、受控的宽高比覆盖以及一个双通道流程，该流程将偏重风景的源数据去偏，转向以人为中心的内容。每张图像都附有解耦的基于VLM的视觉质量和美学评分、经典的IQA信号、双语字幕和主题标签，为数据-模型协同设计提供了必要的结构化元数据。
- • **UltraFlux：一个数据-模型协同设计的DiT，用于原生4K多宽高比生成。** 我们在MultiAspect-4K-1M上训练了一个基于Flux的骨干网络，并采用了协同设计的配方，结合了 (i) *Resonance 2D RoPE with YaRN*，用于训练窗口感知、频带感知和宽高比感知的位置编码；(ii) *信噪比感知的Huber小波训练目标*，专为4K潜变量定制；(iii) *分阶段美学课程学习 (SACL)* 方案，将高美学监督集中在高噪声步骤上；以及 (iv) 一个简单、非对抗性、数据高效的VAE后训练流程，提高了4K下Flux VAE的重建质量。这些组件共同产生了一个稳定、细节保留的DiT，用于跨多样宽高比的原生4K合成。
- • **最先进的原生4K性能。** 在标准的4K基准测试和衡量保真度、美学质量和文本对齐的流行指标上，UltraFlux持续优于强大的4K基线，包括最近的原生4K和训练自由缩放方法。

## 2 相关工作

本节回顾了将文本到图像扩散模型扩展到高分辨率T2I、原生4K和多样宽高比的方法。我们将先前的工作分为三个方向：训练自由的推理时缩放、轻量级适配（例如，潜空间超分辨率和自级联）以及使用4K能力骨干网络的原生4K训练。

**训练自由的高分辨率缩放。** 训练自由策略通过修改推理时的计算，将预训练的512–1K模型扩展到2K/4K和多样宽高比，而无需重新训练。*HiDiffusion*诊断了高分辨率下的重复问题和二次自注意力成本，并引入了分辨率感知的U-Net和窗口注意力来提高质量和速度[zhang2024hidiffusion]。*FouriScale*从频率视角通过傅里叶域低通引导和膨胀卷积来处理超高分辨率，在注入高频的同时改善了整体结构[huang2024fouriscale]。这些方法对于快速缩放是有效的，但通常*保持原始位置编码方案不变*，这仅部分解决了*极端宽高比下的位置外推稳定性*问题[zhang2024hidiffusion, huang2024fouriscale, haji2024elasticdiffusion, bar2023multidiffusion]。

**轻量级适配：潜空间SR和自级联模型。** 轻量级适配通过增强采样流程或附加小型模块，以最小成本提高高分辨率质量。*LSRNA*通过潜空间超分辨率将低分辨率潜变量映射到高分辨率流形，并注入区域噪声以恢复高频细节，而无需重新训练基础模型[jeong2025latent]。*自级联扩散*将低分辨率生成集成到高分辨率去噪过程中，并可选地微调小型多尺度上采样器，以极低的微调成本实现快速4K适配[guo2024make]。虽然这些方法显著锐化了细节并减少了适配开销，但它们通常*继承了原始位置编码方案*，使得*宽高比泛化的外推*问题仍未充分探索[jeong2025latent, guo2024make]。

**原生4K训练和4K能力基础模型。** 一个互补的方向是直接在原生4K分辨率下训练或微调模型，并策展高质量4K语料库。*Diffusion-4K*引入了Aesthetic-4K和基于小波的微调方案，在现代大型骨干网络上提高了保真度和提示对齐[zhang2025diffusion]。同时，高效的骨干网络如*PixArt-Σ*（令牌压缩注意力）和*Sana*（32× VAE配合线性注意力DiT）使得4096×4096合成在小型模型规模下计算可行[chen2024pixart, xie2024sana]。尽管取得了这些进展，公开语料库在*规模和宽高比多样性*方面仍然有限，限制了对*分辨率-宽高比耦合*的系统研究。此外，稳定的原生4K训练的端到端方法论在实现中记录不详且分散，减慢了进展并限制了实际应用，同时掩盖了真正4K训练的收益。一个实际的区分在于*原生*4K与*基于上采样器*的4K。与主要通过2×/4×上采样器达到4K的平台服务（例如，Midjourney [MidJourney]；Google Imagen [Imagen] 暴露了一个专用的上采样器；Ideogram提供了一个2×上采样端点[ideogram2025upscale]）不同，最近闭源的领先系统如*Seedream 4*[seedream2025seedream] 在统一的T2I/编辑架构中明确支持*多宽高比、原生4K*生成。这个区分很重要：级联上采样管道将低分辨率合成与一个独立的恢复先验耦合，混淆了高频保真度和位置外推，而原生4K训练迫使骨干网络直接学习长程依赖和跨宽高比的空间对齐。因此，我们将原生4K视为一个独立的训练/评估机制，并设计我们的数据（MultiAspect-4K-1M）和配方（UltraFlux）来隔离真正4K训练与事后上采样的收益。

## 3 方法：面向原生4K多宽高比生成的数据-模型协同设计

### 3.1 MultiAspect-4K-1M 数据集

**设计目标和范围。** 用于文本到图像训练的公开4K语料库规模仍然适中（通常低于10^5张图像），且通常使用早期的基于CLIP的美学预测器（如LAION-Aesthetic）进行策展。虽然这些数据集已经达到了相当好的视觉质量，但它们的*宽高比（AR）覆盖*是粗略且不平衡的——在原生4K下只有少数流行的宽高比有较好的填充——而文本方面（字幕和美学/质量监督）受限于传统的纯CLIP评分。因此，我们的数据设计针对三个互补的差距：(i) 原生4K下的*广泛多宽高比覆盖*，以避免过拟合到一小部分AR桶；(ii) *更新的监督质量*，结合现代基于VLM的质量/美学估计器，而不是仅仅依赖传统的基于CLIP的预测器；(iii) *分布去偏*，以补偿现有4K源中风景内容过多和以人为中心内容不足的问题。我们采用*VLM驱动*的过滤策略——通过*Q-Align*[wu2023qalign]进行语义质量评估，通过*ArtiMuse*[cao2025artimusefinegrainedimageaesthetics]进行美学评估——辅以可解释的经典信号（平坦度和信息熵），以及一个专门的*人物增强*分支以提高对人物主体的召回率。图2（https://arxiv.org/html/2511.18050v1#S3.F2）描绘了双通道流程和最终的合并。

**来源和整体结构。** 在一次NSFW安全检查后，我们从约600万张高分辨率图像池中策展，这些图像的主题分布偏向风景。为了实现第3.1节（https://arxiv.org/html/2511.18050v1#S3.SS1）中的目标，我们采用了一个*双通道*流程：(i) 一个通用的、宽高比感知的策展路径，强制执行原生/接近4K分辨率和广泛的宽高比（AR）覆盖，同时过滤质量和美学；(ii) 一个人物为中心的增强路径，通过开放词汇检测恢复未被充分代表的*人物*类别。两个通道在去重后合并，并带有一致的元数据（分辨率/AR、VLM评分、经典信号、字幕、主题标签），最终得到*100万*张图像。图2（https://arxiv.org/html/2511.18050v1#S3.F2）提供了高层概述和阶段保留情况。

参见图2：数据流程概述。**基于VLM的高质量4K数据过滤。** 我们从安全筛选开始，然后强制执行*像素计数阈值*作为分辨率过滤阶段——图像必须至少有3840×2160总像素；我们*保留每张图像的原生宽高比，不进行任何尺寸调整*。这使语料库保持无伪影，同时自然保留广泛的AR范围（例如，1:1, 16:9, 3:2, 4:3, 9:16），从而能够

UltraFlux：数据-模型协同设计实现多种宽高比下的高质量原生4K文本到图像生成

相似文章

FLUX.2 [pro]

PixVerve：利用大规模高质量数据集推动原生UHR图像生成至100MP

HiDream-ai/HiDream-O1-Image

照亮统一多模态模型，实现自由形式交错图文生成

FLUX3D: 基于扩散对齐稀疏表示的高保真3D高斯生成

提交意见反馈