这个编辑正确吗？一个面向推理感知的图像编辑的多维度基准

Hugging Face Daily Papers 2026/04/16 00:00 论文

reasoning-aware image-editing benchmark multi-dimensional logical-consistency diffusion-models

摘要

本文介绍了RE-Edit，一个用于评估图像编辑系统的基准，涵盖五个推理维度（物理、环境、文化、因果、指代），旨在评估逻辑一致性而不仅仅是视觉合理性。该基准包含1000个样本，评估了十个开源模型和两个商业模型，结果表明即使是先进系统在隐式多维度推理方面也存在困难。

基于扩散的图像编辑在自然语言指令下已经实现了很强的视觉保真度，然而大多数现有系统仍停留在表面指令跟随的层面，没有对用户真实请求中隐含的上下文约束进行推理。这常常导致视觉上合理但逻辑上不一致的编辑。在本工作中，我们引入了RE-Edit，一个面向推理感知的图像编辑基准，用于评估图像编辑系统在五个互补推理维度上的表现：物理、环境、文化、因果和指代。RE-Edit包含1000个精心策划的样本，每个样本都设计为仅凭视觉合理性不足以完成正确编辑，必须满足隐式逻辑约束。为了支持细粒度分析，我们建立了维度对齐的评估标准，并对十个开源和两个商业图像编辑模型进行了全面研究。我们的结果表明，即使是先进系统，在生成高质量图像的同时，也常常在隐式多维度推理上遇到困难。我们还进一步提出了一个轻量级的推理引导后编辑基线作为初步探索，说明了插入显式推理如何以模型无关的方式帮助缓解此类失败。

查看原文

查看缓存全文

缓存时间: 2026/06/05 06:07

论文页面 - 此编辑是否正确？面向推理感知的图像编辑多维基准

来源：https://huggingface.co/papers/2606.05172
发布于 4月16日

由 https://huggingface.co/Yixuan-Ding-ZJU 提交

ding (https://huggingface.co/Yixuan-Ding-ZJU) 于 6月5日

摘要

RE-Edit 基准从五个推理维度评估图像编辑系统，以衡量超越视觉合理性的逻辑一致性。

基于扩散的图像编辑（https://huggingface.co/papers?q=Diffusion-based%20image%20editing）在自然语言指令（https://huggingface.co/papers?q=natural%20language%20instructions）下已实现强大的视觉保真度（https://huggingface.co/papers?q=visual%20fidelity），然而大多数现有系统仍停留在表层指令遵循层面，未能对真实用户请求中隐含的上下文约束进行推理。这往往导致编辑结果视觉上合理但逻辑上不一致。在本工作中，我们提出 RE-Edit，这是一个面向推理感知的图像编辑（https://huggingface.co/papers?q=REasoning-aware%20image%20Editing）基准，从五个互补推理维度评估图像编辑系统：物理、环境、文化、因果和指涉。RE-Edit 包含 1,000 个精心筛选的样本，每个样本的设计都确保仅凭视觉合理性不足以完成正确编辑，而必须满足隐含的逻辑约束。为了支持细粒度分析，我们建立了维度对齐的评估标准，并对十个开源和两个商业图像编辑模型（https://huggingface.co/papers?q=image%20editing%20models）进行了全面研究。结果表明，即使是先进的系统，在生成高质量视觉结果的同时，也往往难以处理隐式的多维度推理。我们进一步提出一个轻量级的推理引导后编辑基线（https://huggingface.co/papers?q=post-edit%20baseline）作为初步探索，展示了插入显式推理如何以模型无关的方式帮助缓解此类失败。

查看 arXiv 页面（https://arxiv.org/abs/2606.05172）
查看 PDF（https://arxiv.org/pdf/2606.05172）
GitHub 0（https://github.com/Yixuan-Ding-ZJU/RE-Edit）
添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.05172）

在你的 agent 中获取此论文：

hf papers read 2606.05172

没有最新 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 1

Yixuan-Ding-ZJU/EditRefine 8B • 更新于约 3 小时前（https://huggingface.co/Yixuan-Ding-ZJU/EditRefine）

引用此论文的数据集 1

Yixuan-Ding-ZJU/RE-Edit Viewer • 更新于约 3 小时前 • 1k • 33（https://huggingface.co/datasets/Yixuan-Ding-ZJU/RE-Edit）

引用此论文的 Spaces 0

没有 Space 链接此论文

请在 Space 的 README.md 中引用 arxiv.org/abs/2606.05172，以便从此页面链接。

包含此论文的收藏 0

没有收藏包含此论文

将此论文添加到收藏（https://huggingface.co/new-collection）以链接到此页面。

这个编辑正确吗？一个面向推理感知的图像编辑的多维度基准

论文页面 - 此编辑是否正确？面向推理感知的图像编辑多维基准

摘要

引用此论文的模型 1

Yixuan-Ding-ZJU/EditRefine 8B • 更新于约 3 小时前（https://huggingface.co/Yixuan-Ding-ZJU/EditRefine）

引用此论文的数据集 1

Yixuan-Ding-ZJU/RE-Edit Viewer • 更新于约 3 小时前 • 1k • 33（https://huggingface.co/datasets/Yixuan-Ding-ZJU/RE-Edit）

引用此论文的 Spaces 0

包含此论文的收藏 0

相似文章

ETCHR：编辑以澄清和利用推理

Edit-Compass & EditReward-Compass: 图像编辑与奖励建模的统一基准

编辑精选：通过原子实体分析评估图像编辑中的抽象意图

PaintBench: 精确视觉编辑的确定性评估

文本编辑能否泛化到视觉生成？统一多模态模型中的跨模态知识编辑基准测试

提交意见反馈