RefGC-SR^2:参考引导的生成内容超分辨率与精炼
摘要
本文提出了一项新任务:参考引导的生成内容超分辨率与精炼(RefGC-SR²),该任务利用频率感知扩散变换器模型,同时恢复高分辨率细节并修正生成伪影。该方法在后处理阶段利用高分辨率参考图像提升AI生成图像的质量。
查看缓存全文
缓存时间: 2026/06/17 11:37
论文页面 - RefGC-SR²:参考引导的生成内容超分辨率与优化
来源:https://huggingface.co/papers/2606.15158
摘要
本文提出了一项新的参考引导的生成内容超分辨率-优化任务,该任务利用频率感知扩散变换器模型同时恢复高分辨率细节并优化生成伪影。
参考引导生成(Reference-guided generation)(https://huggingface.co/papers?q=Reference-guided%20generation)(例如,对象合成(https://huggingface.co/papers?q=object%20compositing)、定制化(https://huggingface.co/papers?q=customization))已迅速发展,但当前流程存在一个根本性限制:用户提供的以对象为中心的高分辨率参考图像(HRRI)在输入模型前会被下采样至固定的低分辨率(LR),因此精细细节在输出生成前就被丢弃了。此外,生成步骤会在此损失之上引入其自身的伪影(如身份变形)。现有的参考引导生成内容优化(RefGCR)方法可以纠正部分伪影,但仍在低分辨率域中运行;参考引导超分辨率(RefSR)方法可恢复分辨率,但假设的是自然图像退化,忽略了生成流程的伪影分布。为了在一个统一框架中同时解决这两个缺口,我们提出了一项新任务:参考引导的生成内容超分辨率-优化(RefGC-SR²),即在后处理阶段重新利用原始HRRI,以同时恢复丢失的细节、优化生成伪影并放大输出。我们为这一RefGC-SR²任务构建了首个真实世界三元组数据生成流程,训练了一个双联条件生成器,以合成公开预训练模型无法提供的配对低质量锚点。此外,我们提出了一个用于RefGC-SR²的频率感知扩散变换器模型,该模型能够从HRRI中选择性地注入细粒度细节,同时去除生成伪影。大量实验表明,我们的RefGC-SR²模型成功实现了(i)根据参考忠实优化对象身份,以及(ii)恢复高分辨率细节,使得最终结果相比现有的RefGCR和RefSR基线方法在质量上显著更高,在实际使用中更具实用性。
查看 arXiv 页面(https://arxiv.org/abs/2606.15158)查看 PDF(https://arxiv.org/pdf/2606.15158)项目页面(https://cmlab-korea.github.io/RefGC-SR2/)添加到收藏集(https://huggingface.co/login?next=%2Fpapers%2F2606.15158)
引用本文的模型 0
无模型链接本文
请在模型 README.md 中引用 arxiv.org/abs/2606.15158 以使其从此页面链接。
引用本文的数据集 0
无数据集链接本文
请在数据集 README.md 中引用 arxiv.org/abs/2606.15158 以使其从此页面链接。
引用本文的 Space 0
无 Space 链接本文
请在 Space README.md 中引用 arxiv.org/abs/2606.15158 以使其从此页面链接。
包含本文的收藏集 0
无收藏集包含本文
请将本文添加至收藏集(https://huggingface.co/new-collection)以使其从此页面链接。
相似文章
SEGA: 扩散变换器中基于光谱能量引导的注意力机制实现分辨率外推
SEGA是一种无需训练的方法,通过在去噪步骤中根据空间频率结构自适应地缩放RoPE组件的注意力,改善高分辨率文本到图像生成。
PRISM: 先验纠正与不确定性感知结构建模的基于扩散的文本图像超分辨率
PRISM是一个基于扩散的文本图像超分辨率框架,利用流匹配先验纠正和不确定性感知残差编码来提升严重退化下的准确性,实现了毫秒级推理的最新性能。
SRT:基于解耦校正流的时间序列超分辨率
本文提出 SRT(时间序列超分辨率),一种使用解耦校正流方法从低分辨率输入重建高分辨率时间模式的框架。该方法将输入分解为趋势和季节性成分,应用隐式神经表示进行分辨率对齐,并引入跨分辨率注意力机制以生成细粒度细节,在多个数据集上实现了最先进的性能。
GenRecon:结合生成先验的多视图3D场景重建
GenRecon提出了一种3D场景重建方法,将生成式3D先验与多视图图像条件相结合,实现了室内环境的高保真、可编辑网格重建,性能比现有方法提升16%。
tencentarc/gfpgan
GFPGAN 是由腾讯 ARC 开发的实用人脸修复模型,可在 Replicate 上使用。它能高保真地修复老旧或低质量的人脸图像。