MirrorPPR:基于示例的人像照片修图
摘要
MirrorPPR 提出了一种基于示例的人像修图框架,采用带有 LoRA 适应的扩散变换器和自增强训练数据,实现了卓越的质量和身份保持。
查看缓存全文
缓存时间: 2026/06/30 23:38
论文页面 - MirrorPPR:基于范例的人像照片修图
来源:https://huggingface.co/papers/2606.29308
摘要
基于范例的人像修图框架,采用扩散Transformer结合LoRA适配和自增强训练数据,实现了卓越的修图质量和身份保持能力。
虽然文本引导的图像编辑(https://huggingface.co/papers?q=dit)取得了显著进展,但在结构性人像修图方面仍存在局限。文本描述难以传达面部特征和身体比例的细微变化。为弥补这一不足,我们引入了基于范例的人像照片修图任务:模型给定一对修图范例,需要推断并对新的查询图像应用相同的修图操作。现有的基于范例的编辑(https://huggingface.co/papers?q=exemplar-based%20editing)方法主要关注视觉效果明显的变换任务。相比之下,结构性人像修图涉及极其精细和局部的修改,使得准确提取和迁移这些编辑(https://huggingface.co/papers?q=dit)操作极具挑战性。为此,我们提出MirrorPPR,一个旨在捕获和迁移细微结构性修图操作的新型框架。我们的方法使用修图操作提取器(https://huggingface.co/papers?q=Retouching%20Operation%20Extractor)来捕获范例对中的细微差异。提取的表示随后通过连接器和低秩适配(https://huggingface.co/papers?q=Low-Rank%20Adaptation)(LoRA(https://huggingface.co/papers?q=LoRA))模块注入预训练的扩散Transformer(https://huggingface.co/papers?q=Diffusion%20Transformer)(DiT(https://huggingface.co/papers?q=DiT))中。此外,构建完美对齐的跨身份训练对(https://huggingface.co/papers?q=cross-identity%20training%20pairs)因操作不对齐而严重受阻。为解决此问题,我们提出一种先进的数据自增强(https://huggingface.co/papers?q=data%20self-augmentation)范式,确保修图操作严格对齐。为缓解数据稀缺并支持这一新任务,我们引入MirrorPPR47M数据集,包含超过4700万个修图对。通过将数据集划分为模拟子集和专业子集,我们实现了渐进式课程学习(https://huggingface.co/papers?q=curriculum%20learning),以平滑优化网络。大量实验表明,MirrorPPR在修图质量和身份保持方面均显著优于现有基线。项目页面可见https://sjtu-deng-lab.github.io/MirrorPPR。
查看arXiv页面(https://arxiv.org/abs/2606.29308)查看PDF(https://arxiv.org/pdf/2606.29308)项目页面(https://sjtu-deng-lab.github.io/MirrorPPR)GitHub3(https://github.com/SJTU-DENG-Lab/MirrorPPR)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.29308)
在您的Agent中获取此论文:
hf papers read 2606\.29308
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
无模型链接此论文
请在模型README.md中引用arxiv.org/abs/2606.29308以从此页面链接。
引用此论文的数据集0
无数据集链接此论文
请在数据集README.md中引用arxiv.org/abs/2606.29308以从此页面链接。
引用此论文的Spaces0
无Space链接此论文
请在Space README.md中引用arxiv.org/abs/2606.29308以从此页面链接。
包含此论文的收藏集0
无收藏集包含此论文
请将此论文添加到一个收藏集(https://huggingface.co/new-collection)中以从此页面链接。
相似文章
HP-Edit:面向图像编辑的人类偏好后训练框架
HP-Edit 提出一种后训练框架,通过 RLHF 将基于扩散的图像编辑模型与人类偏好对齐,依托全新 5 万张真实场景数据集及自动 VLM 评估器。
SmartPhotoCrafter:统一推理、生成与优化的自动摄影图像编辑
SmartPhotoCrafter 提出一条无需显式人工指令即可统一质量理解与增强的自动摄影图像编辑流水线,在真实感增强任务上超越现有生成模型。
PRX Part 3 — 在24小时内训练文本到图像模型!
Photoroom的 PRX Part 3 演示了如何通过结合优化的架构和训练技术(包括感知损失、TREAD 令牌路由和 Muon 优化器)在24小时内训练文本到图像模型。
M2Retinexformer: 多模态Retinexformer用于低光照图像增强
M2Retinexformer通过交叉注意力和自适应门控机制融合深度、亮度和语义线索,扩展了Retinexformer框架用于低光照图像增强,在多个基准上取得了最先进的结果。
prunaai/p-image-edit
Pruna的p-image-edit是一款运行在Replicate平台上的高端AI模型,能够在一秒内快速完成业界领先的图像编辑,兼具速度、经济性和高视觉质量,精准遵循提示词并具备强大的文字渲染能力。