RefGC-SR^2:参考引导的生成内容超分辨率与精炼

Hugging Face Daily Papers 论文

摘要

本文提出了一项新任务:参考引导的生成内容超分辨率与精炼(RefGC-SR²),该任务利用频率感知扩散变换器模型,同时恢复高分辨率细节并修正生成伪影。该方法在后处理阶段利用高分辨率参考图像提升AI生成图像的质量。

参考引导生成(例如对象合成、个性化定制)已取得快速进展,但现有流程存在一个根本性限制:用户提供的高分辨率参考图像(HRRI)在输入模型前会被下采样至固定的低分辨率(LR),因此细粒度细节在输出生成之前就被丢弃。此外,生成步骤在此损失基础上还会引入自身伪影(例如身份失真)。现有的参考引导生成内容精炼(RefGCR)方法可以修正部分伪影,但仍局限于低分辨率域;参考引导超分辨率(RefSR)方法能恢复分辨率,但假设退化过程符合自然图像特性,忽略了生成流程的伪影分布。为同时解决这两个问题,我们提出了一项新任务:参考引导的生成内容超分辨率与精炼(RefGC-SR^2),即在后处理阶段重用原始HRRI,以同时恢复丢失的细节、修正生成伪影并提升输出分辨率。我们为此任务构建了首个真实场景三元组数据生成流程,训练了一个双联条件生成器来合成公开预训练模型无法提供的配对低质量锚点。此外,我们提出了一种用于RefGC-SR^2的频率感知扩散变换器模型,该模型能选择性地注入HRRI中的细粒度细节,同时去除生成伪影。大量实验表明,我们的RefGC-SR^2模型能够(i)忠实于参考图像精炼对象身份,以及(ii)恢复高分辨率细节,使得最终结果相比现有的RefGCR和RefSR基线具有显著更高的质量和更强的实用性。
查看原文
查看缓存全文

缓存时间: 2026/06/17 11:37

论文页面 - RefGC-SR²:参考引导的生成内容超分辨率与优化

来源:https://huggingface.co/papers/2606.15158

摘要

本文提出了一项新的参考引导的生成内容超分辨率-优化任务,该任务利用频率感知扩散变换器模型同时恢复高分辨率细节并优化生成伪影。

参考引导生成(Reference-guided generation)(https://huggingface.co/papers?q=Reference-guided%20generation)(例如,对象合成(https://huggingface.co/papers?q=object%20compositing)、定制化(https://huggingface.co/papers?q=customization))已迅速发展,但当前流程存在一个根本性限制:用户提供的以对象为中心的高分辨率参考图像(HRRI)在输入模型前会被下采样至固定的低分辨率(LR),因此精细细节在输出生成前就被丢弃了。此外,生成步骤会在此损失之上引入其自身的伪影(如身份变形)。现有的参考引导生成内容优化(RefGCR)方法可以纠正部分伪影,但仍在低分辨率域中运行;参考引导超分辨率(RefSR)方法可恢复分辨率,但假设的是自然图像退化,忽略了生成流程的伪影分布。为了在一个统一框架中同时解决这两个缺口,我们提出了一项新任务:参考引导的生成内容超分辨率-优化(RefGC-SR²),即在后处理阶段重新利用原始HRRI,以同时恢复丢失的细节、优化生成伪影并放大输出。我们为这一RefGC-SR²任务构建了首个真实世界三元组数据生成流程,训练了一个双联条件生成器,以合成公开预训练模型无法提供的配对低质量锚点。此外,我们提出了一个用于RefGC-SR²的频率感知扩散变换器模型,该模型能够从HRRI中选择性地注入细粒度细节,同时去除生成伪影。大量实验表明,我们的RefGC-SR²模型成功实现了(i)根据参考忠实优化对象身份,以及(ii)恢复高分辨率细节,使得最终结果相比现有的RefGCR和RefSR基线方法在质量上显著更高,在实际使用中更具实用性。

查看 arXiv 页面(https://arxiv.org/abs/2606.15158)查看 PDF(https://arxiv.org/pdf/2606.15158)项目页面(https://cmlab-korea.github.io/RefGC-SR2/)添加到收藏集(https://huggingface.co/login?next=%2Fpapers%2F2606.15158)

引用本文的模型 0

无模型链接本文

请在模型 README.md 中引用 arxiv.org/abs/2606.15158 以使其从此页面链接。

引用本文的数据集 0

无数据集链接本文

请在数据集 README.md 中引用 arxiv.org/abs/2606.15158 以使其从此页面链接。

引用本文的 Space 0

无 Space 链接本文

请在 Space README.md 中引用 arxiv.org/abs/2606.15158 以使其从此页面链接。

包含本文的收藏集 0

无收藏集包含本文

请将本文添加至收藏集(https://huggingface.co/new-collection)以使其从此页面链接。

相似文章

SRT:基于解耦校正流的时间序列超分辨率

arXiv cs.LG

本文提出 SRT(时间序列超分辨率),一种使用解耦校正流方法从低分辨率输入重建高分辨率时间模式的框架。该方法将输入分解为趋势和季节性成分,应用隐式神经表示进行分辨率对齐,并引入跨分辨率注意力机制以生成细粒度细节,在多个数据集上实现了最先进的性能。

GenRecon:结合生成先验的多视图3D场景重建

Hugging Face Daily Papers

GenRecon提出了一种3D场景重建方法,将生成式3D先验与多视图图像条件相结合,实现了室内环境的高保真、可编辑网格重建,性能比现有方法提升16%。

tencentarc/gfpgan

Replicate Explore

GFPGAN 是由腾讯 ARC 开发的实用人脸修复模型,可在 Replicate 上使用。它能高保真地修复老旧或低质量的人脸图像。