SmartPhotoCrafter:统一推理、生成与优化的自动摄影图像编辑
摘要
SmartPhotoCrafter 提出一条无需显式人工指令即可统一质量理解与增强的自动摄影图像编辑流水线,在真实感增强任务上超越现有生成模型。
查看缓存全文
缓存时间: 2026/04/22 06:17
论文页面 - SmartPhotoCrafter:面向自动摄影图像编辑的统一推理、生成与优化
来源:https://huggingface.co/papers/2604.19587
作者:
,
,
,
,
,
,
,
,
,
,
,
摘要
SmartPhotoCrafter 通过将图像质量理解与针对性增强相结合,采用“推理到生成”范式,无需显式人工指令即可自动完成摄影级图像编辑。
传统摄影图像编辑通常要求用户具备足够的审美能力,才能给出恰当的图像质量与相机参数调整指令。然而,该范式依赖人类对审美意图的显式描述,往往存在模糊、不完整,甚至对非专业用户不可及的问题。本文提出 SmartPhotoCrafter,一种自动摄影图像编辑方法,将图像编辑建模为紧密耦合的“推理→生成”流程:模型首先进行图像质量理解(https://huggingface.co/papers?q=image%20quality%20comprehension),由 Image Critic 模块(https://huggingface.co/papers?q=Image%20Critic%20module)识别缺陷,随后 Photographic Artist 模块(https://huggingface.co/papers?q=Photographic%20Artist%20module)执行针对性编辑以提升图像吸引力,无需任何显式人工指令。
我们采用多阶段训练流程(https://huggingface.co/papers?q=multi-stage%20training%20pipeline):
(i) 基础预训练(https://huggingface.co/papers?q=Foundation%20pretraining)建立基本审美理解与编辑能力;
(ii) 推理引导的多编辑监督自适应(https://huggingface.co/papers?q=Adaptation%20with%20reasoning-guided%20multi-edit%20supervision)引入丰富的语义指导(https://huggingface.co/papers?q=semantic%20guidance);
(iii) 协同推理-生成强化学习联合优化推理与生成。
训练过程中,SmartPhotoCrafter 强调真实感图像生成(https://huggingface.co/papers?q=photo-realistic%20image%20generation),同时支持图像修复(https://huggingface.co/papers?q=image%20restoration)与精修任务(https://huggingface.co/papers?q=retouching%20tasks),并始终遵循色彩与影调语义一致性。我们还构建了分阶段专用数据集,逐步构建推理与可控生成能力,实现跨模块高效协作,最终获得高质量摄影增强效果。实验表明,SmartPhotoCrafter 在自动摄影增强任务上优于现有生成模型,能够生成真实感结果,并对精修指令表现出更高的影调敏感度。
项目主页:https://github.com/vivoCameraResearch/SmartPhotoCrafter
查看 arXiv 页面(https://arxiv.org/abs/2604.19587)
查看 PDF(https://arxiv.org/pdf/2604.19587)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.19587)
在 Agent 中获取本文:
hf papers read 2604.19587
未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用本文的模型 0
暂无模型引用
在模型 README.md 中引用 arxiv.org/abs/2604.19587 即可在此页面显示链接。
引用本文的数据集 0
暂无数据集引用
在数据集 README.md 中引用 arxiv.org/abs/2604.19587 即可在此页面显示链接。
引用本文的 Spaces 0
暂无 Space 引用
在 Space README.md 中引用 arxiv.org/abs/2604.19587 即可在此页面显示链接。
收录本文的合集 0
暂无合集收录
将本文添加到合集(https://huggingface.co/new-collection)即可在此页面显示链接。
相似文章
PhotoCraft: 基于层次化自演化记忆的深度图像搜索智能体推理
PhotoCraft 提出了一种无需训练的层次化记忆系统,用于照片搜索智能体,集成了工作记忆、情景记忆和语义记忆,以维持长期上下文并在任务间迁移知识,在 DISBench 上取得了高达 18.5% 的提升。
ETCHR:编辑以澄清和利用推理
ETCHR是一种新颖的图像编辑方法,它将视觉推理与图像生成解耦,采用两阶段训练过程(推理模仿和推理增强)来提升多模态语言模型在五个视觉推理任务上的性能。在Qwen3-VL-8B、Gemini-3.1-Flash-Lite和Kimi K2.5等模型上,Pass@1持续提升4-5%。
Uni-Edit:智能编辑是统一模型调优的通用任务
Uni-Edit提出使用智能图像编辑作为单一通用任务,以同时提升统一多模态模型的理解、生成和编辑能力,并配备自动化数据合成流程生成复杂的编辑指令。
这个编辑正确吗?一个面向推理感知的图像编辑的多维度基准
本文介绍了RE-Edit,一个用于评估图像编辑系统的基准,涵盖五个推理维度(物理、环境、文化、因果、指代),旨在评估逻辑一致性而不仅仅是视觉合理性。该基准包含1000个样本,评估了十个开源模型和两个商业模型,结果表明即使是先进系统在隐式多维度推理方面也存在困难。
从计划到像素:学习规划和编排实现开放式图像编辑
一个针对长序列图像编辑的体验式框架,将规划与奖励驱动的执行相结合,以提高复杂多步编辑的连贯性和可靠性。