这个编辑正确吗?一个面向推理感知的图像编辑的多维度基准

Hugging Face Daily Papers 论文

摘要

本文介绍了RE-Edit,一个用于评估图像编辑系统的基准,涵盖五个推理维度(物理、环境、文化、因果、指代),旨在评估逻辑一致性而不仅仅是视觉合理性。该基准包含1000个样本,评估了十个开源模型和两个商业模型,结果表明即使是先进系统在隐式多维度推理方面也存在困难。

基于扩散的图像编辑在自然语言指令下已经实现了很强的视觉保真度,然而大多数现有系统仍停留在表面指令跟随的层面,没有对用户真实请求中隐含的上下文约束进行推理。这常常导致视觉上合理但逻辑上不一致的编辑。在本工作中,我们引入了RE-Edit,一个面向推理感知的图像编辑基准,用于评估图像编辑系统在五个互补推理维度上的表现:物理、环境、文化、因果和指代。RE-Edit包含1000个精心策划的样本,每个样本都设计为仅凭视觉合理性不足以完成正确编辑,必须满足隐式逻辑约束。为了支持细粒度分析,我们建立了维度对齐的评估标准,并对十个开源和两个商业图像编辑模型进行了全面研究。我们的结果表明,即使是先进系统,在生成高质量图像的同时,也常常在隐式多维度推理上遇到困难。我们还进一步提出了一个轻量级的推理引导后编辑基线作为初步探索,说明了插入显式推理如何以模型无关的方式帮助缓解此类失败。
查看原文
查看缓存全文

缓存时间: 2026/06/05 06:07

论文页面 - 此编辑是否正确?面向推理感知的图像编辑多维基准

来源:https://huggingface.co/papers/2606.05172
发布于 4月16日

·

由 https://huggingface.co/Yixuan-Ding-ZJU 提交

ding (https://huggingface.co/Yixuan-Ding-ZJU) 于 6月5日

摘要

RE-Edit 基准从五个推理维度评估图像编辑系统,以衡量超越视觉合理性的逻辑一致性。

基于扩散的图像编辑(https://huggingface.co/papers?q=Diffusion-based%20image%20editing)在自然语言指令(https://huggingface.co/papers?q=natural%20language%20instructions)下已实现强大的视觉保真度(https://huggingface.co/papers?q=visual%20fidelity),然而大多数现有系统仍停留在表层指令遵循层面,未能对真实用户请求中隐含的上下文约束进行推理。这往往导致编辑结果视觉上合理但逻辑上不一致。在本工作中,我们提出 RE-Edit,这是一个面向推理感知的图像编辑(https://huggingface.co/papers?q=REasoning-aware%20image%20Editing)基准,从五个互补推理维度评估图像编辑系统:物理、环境、文化、因果和指涉。RE-Edit 包含 1,000 个精心筛选的样本,每个样本的设计都确保仅凭视觉合理性不足以完成正确编辑,而必须满足隐含的逻辑约束。为了支持细粒度分析,我们建立了维度对齐的评估标准,并对十个开源和两个商业图像编辑模型(https://huggingface.co/papers?q=image%20editing%20models)进行了全面研究。结果表明,即使是先进的系统,在生成高质量视觉结果的同时,也往往难以处理隐式的多维度推理。我们进一步提出一个轻量级的推理引导后编辑基线(https://huggingface.co/papers?q=post-edit%20baseline)作为初步探索,展示了插入显式推理如何以模型无关的方式帮助缓解此类失败。

查看 arXiv 页面(https://arxiv.org/abs/2606.05172)
查看 PDF(https://arxiv.org/pdf/2606.05172)
GitHub 0(https://github.com/Yixuan-Ding-ZJU/RE-Edit)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.05172)

在你的 agent 中获取此论文:

hf papers read 2606.05172

没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 1

Yixuan-Ding-ZJU/EditRefine 8B • 更新于约 3 小时前(https://huggingface.co/Yixuan-Ding-ZJU/EditRefine)

引用此论文的数据集 1

Yixuan-Ding-ZJU/RE-Edit Viewer • 更新于约 3 小时前 • 1k • 33(https://huggingface.co/datasets/Yixuan-Ding-ZJU/RE-Edit)

引用此论文的 Spaces 0

没有 Space 链接此论文

请在 Space 的 README.md 中引用 arxiv.org/abs/2606.05172,以便从此页面链接。

包含此论文的收藏 0

没有收藏包含此论文

将此论文添加到收藏(https://huggingface.co/new-collection)以链接到此页面。

相似文章

ETCHR:编辑以澄清和利用推理

Hugging Face Daily Papers

ETCHR是一种新颖的图像编辑方法,它将视觉推理与图像生成解耦,采用两阶段训练过程(推理模仿和推理增强)来提升多模态语言模型在五个视觉推理任务上的性能。在Qwen3-VL-8B、Gemini-3.1-Flash-Lite和Kimi K2.5等模型上,Pass@1持续提升4-5%。

PaintBench: 精确视觉编辑的确定性评估

Hugging Face Daily Papers

PaintBench是一个新的基准,用于评估多模态模型中的精确视觉编辑,涵盖4个类别中的20种操作,采用确定性像素级评估。测试11个模型显示整体性能较低,最佳模型仅获得17.1%的mIoU。