SmartPhotoCrafter:统一推理、生成与优化的自动摄影图像编辑

Hugging Face Daily Papers 论文

摘要

SmartPhotoCrafter 提出一条无需显式人工指令即可统一质量理解与增强的自动摄影图像编辑流水线,在真实感增强任务上超越现有生成模型。

传统摄影图像编辑通常要求用户具备足够的审美认知,才能就画质与相机参数给出恰当指令。然而,该范式依赖人对审美意图的显式描述,往往含糊、不完整,对非专业用户更是难以企及。本文提出 SmartPhotoCrafter,一种将图像编辑建模为“紧密耦合的推理-生成”过程的自动摄影图像编辑方法。模型先通过 Image Critic 模块进行图像质量理解并定位缺陷,再由 Photographic Artist 模块执行针对性编辑以提升画面吸引力,无需任何显式人工指令。 我们采用多阶段训练流水线: (i) 基础预训练,建立基本审美认知与编辑能力; (ii) 推理引导的多编辑监督自适应,引入丰富语义指导; (iii) 协同的推理-生成强化学习,联合优化推理与生成。 训练过程中,SmartPhotoCrafter 侧重真实感图像生成,同时支持图像修复与润饰任务,并始终遵守色彩和影调语义。我们还构建了分阶段数据集,逐步构建推理与可控生成、实现跨模块高效协作,最终达成高质量摄影增强。实验表明,SmartPhotoCrafter 在自动摄影增强任务上优于现有生成模型,输出结果真实自然,对润色指令的影调敏感度更高。 项目主页:https://github.com/vivoCameraResearch/SmartPhotoCrafter
查看原文
查看缓存全文

缓存时间: 2026/04/22 06:17

论文页面 - SmartPhotoCrafter:面向自动摄影图像编辑的统一推理、生成与优化

来源:https://huggingface.co/papers/2604.19587
作者:

,

,

,

,

,

,

,

,

,

,

,

摘要

SmartPhotoCrafter 通过将图像质量理解与针对性增强相结合,采用“推理到生成”范式,无需显式人工指令即可自动完成摄影级图像编辑。

传统摄影图像编辑通常要求用户具备足够的审美能力,才能给出恰当的图像质量与相机参数调整指令。然而,该范式依赖人类对审美意图的显式描述,往往存在模糊、不完整,甚至对非专业用户不可及的问题。本文提出 SmartPhotoCrafter,一种自动摄影图像编辑方法,将图像编辑建模为紧密耦合的“推理→生成”流程:模型首先进行图像质量理解(https://huggingface.co/papers?q=image%20quality%20comprehension),由 Image Critic 模块(https://huggingface.co/papers?q=Image%20Critic%20module)识别缺陷,随后 Photographic Artist 模块(https://huggingface.co/papers?q=Photographic%20Artist%20module)执行针对性编辑以提升图像吸引力,无需任何显式人工指令。

我们采用多阶段训练流程(https://huggingface.co/papers?q=multi-stage%20training%20pipeline):
(i) 基础预训练(https://huggingface.co/papers?q=Foundation%20pretraining)建立基本审美理解与编辑能力;
(ii) 推理引导的多编辑监督自适应(https://huggingface.co/papers?q=Adaptation%20with%20reasoning-guided%20multi-edit%20supervision)引入丰富的语义指导(https://huggingface.co/papers?q=semantic%20guidance);
(iii) 协同推理-生成强化学习联合优化推理与生成。

训练过程中,SmartPhotoCrafter 强调真实感图像生成(https://huggingface.co/papers?q=photo-realistic%20image%20generation),同时支持图像修复(https://huggingface.co/papers?q=image%20restoration)与精修任务(https://huggingface.co/papers?q=retouching%20tasks),并始终遵循色彩与影调语义一致性。我们还构建了分阶段专用数据集,逐步构建推理与可控生成能力,实现跨模块高效协作,最终获得高质量摄影增强效果。实验表明,SmartPhotoCrafter 在自动摄影增强任务上优于现有生成模型,能够生成真实感结果,并对精修指令表现出更高的影调敏感度。

项目主页:https://github.com/vivoCameraResearch/SmartPhotoCrafter

查看 arXiv 页面(https://arxiv.org/abs/2604.19587)
查看 PDF(https://arxiv.org/pdf/2604.19587)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.19587)

在 Agent 中获取本文:

hf papers read 2604.19587

未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型 0

暂无模型引用

在模型 README.md 中引用 arxiv.org/abs/2604.19587 即可在此页面显示链接。

引用本文的数据集 0

暂无数据集引用

在数据集 README.md 中引用 arxiv.org/abs/2604.19587 即可在此页面显示链接。

引用本文的 Spaces 0

暂无 Space 引用

在 Space README.md 中引用 arxiv.org/abs/2604.19587 即可在此页面显示链接。

收录本文的合集 0

暂无合集收录

将本文添加到合集(https://huggingface.co/new-collection)即可在此页面显示链接。

相似文章

ETCHR:编辑以澄清和利用推理

Hugging Face Daily Papers

ETCHR是一种新颖的图像编辑方法,它将视觉推理与图像生成解耦,采用两阶段训练过程(推理模仿和推理增强)来提升多模态语言模型在五个视觉推理任务上的性能。在Qwen3-VL-8B、Gemini-3.1-Flash-Lite和Kimi K2.5等模型上,Pass@1持续提升4-5%。

这个编辑正确吗?一个面向推理感知的图像编辑的多维度基准

Hugging Face Daily Papers

本文介绍了RE-Edit,一个用于评估图像编辑系统的基准,涵盖五个推理维度(物理、环境、文化、因果、指代),旨在评估逻辑一致性而不仅仅是视觉合理性。该基准包含1000个样本,评估了十个开源模型和两个商业模型,结果表明即使是先进系统在隐式多维度推理方面也存在困难。