这个编辑正确吗?一个面向推理感知的图像编辑的多维度基准
摘要
本文介绍了RE-Edit,一个用于评估图像编辑系统的基准,涵盖五个推理维度(物理、环境、文化、因果、指代),旨在评估逻辑一致性而不仅仅是视觉合理性。该基准包含1000个样本,评估了十个开源模型和两个商业模型,结果表明即使是先进系统在隐式多维度推理方面也存在困难。
查看缓存全文
缓存时间: 2026/06/05 06:07
论文页面 - 此编辑是否正确?面向推理感知的图像编辑多维基准
来源:https://huggingface.co/papers/2606.05172
发布于 4月16日
·
由 https://huggingface.co/Yixuan-Ding-ZJU 提交
ding (https://huggingface.co/Yixuan-Ding-ZJU) 于 6月5日
摘要
RE-Edit 基准从五个推理维度评估图像编辑系统,以衡量超越视觉合理性的逻辑一致性。
基于扩散的图像编辑(https://huggingface.co/papers?q=Diffusion-based%20image%20editing)在自然语言指令(https://huggingface.co/papers?q=natural%20language%20instructions)下已实现强大的视觉保真度(https://huggingface.co/papers?q=visual%20fidelity),然而大多数现有系统仍停留在表层指令遵循层面,未能对真实用户请求中隐含的上下文约束进行推理。这往往导致编辑结果视觉上合理但逻辑上不一致。在本工作中,我们提出 RE-Edit,这是一个面向推理感知的图像编辑(https://huggingface.co/papers?q=REasoning-aware%20image%20Editing)基准,从五个互补推理维度评估图像编辑系统:物理、环境、文化、因果和指涉。RE-Edit 包含 1,000 个精心筛选的样本,每个样本的设计都确保仅凭视觉合理性不足以完成正确编辑,而必须满足隐含的逻辑约束。为了支持细粒度分析,我们建立了维度对齐的评估标准,并对十个开源和两个商业图像编辑模型(https://huggingface.co/papers?q=image%20editing%20models)进行了全面研究。结果表明,即使是先进的系统,在生成高质量视觉结果的同时,也往往难以处理隐式的多维度推理。我们进一步提出一个轻量级的推理引导后编辑基线(https://huggingface.co/papers?q=post-edit%20baseline)作为初步探索,展示了插入显式推理如何以模型无关的方式帮助缓解此类失败。
查看 arXiv 页面(https://arxiv.org/abs/2606.05172)
查看 PDF(https://arxiv.org/pdf/2606.05172)
GitHub 0(https://github.com/Yixuan-Ding-ZJU/RE-Edit)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.05172)
在你的 agent 中获取此论文:
hf papers read 2606.05172
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 1
Yixuan-Ding-ZJU/EditRefine 8B • 更新于约 3 小时前(https://huggingface.co/Yixuan-Ding-ZJU/EditRefine)
引用此论文的数据集 1
Yixuan-Ding-ZJU/RE-Edit Viewer • 更新于约 3 小时前 • 1k • 33(https://huggingface.co/datasets/Yixuan-Ding-ZJU/RE-Edit)
引用此论文的 Spaces 0
没有 Space 链接此论文
请在 Space 的 README.md 中引用 arxiv.org/abs/2606.05172,以便从此页面链接。
包含此论文的收藏 0
没有收藏包含此论文
将此论文添加到收藏(https://huggingface.co/new-collection)以链接到此页面。
相似文章
ETCHR:编辑以澄清和利用推理
ETCHR是一种新颖的图像编辑方法,它将视觉推理与图像生成解耦,采用两阶段训练过程(推理模仿和推理增强)来提升多模态语言模型在五个视觉推理任务上的性能。在Qwen3-VL-8B、Gemini-3.1-Flash-Lite和Kimi K2.5等模型上,Pass@1持续提升4-5%。
Edit-Compass & EditReward-Compass: 图像编辑与奖励建模的统一基准
介绍了Edit-Compass和EditReward-Compass,这是一个用于评估图像编辑模型和奖励模型的统一基准套件,包含2,388个标注实例和2,251个偏好对,用于真实的强化学习场景。
编辑精选:通过原子实体分析评估图像编辑中的抽象意图
本文介绍了AbstractEdit(一个抽象图像编辑基准)和Entity-Rubrics(一个实体级评估框架),揭示了在抽象指令中平衡意图与保留的挑战,并强调了需要集成LLM。
PaintBench: 精确视觉编辑的确定性评估
PaintBench是一个新的基准,用于评估多模态模型中的精确视觉编辑,涵盖4个类别中的20种操作,采用确定性像素级评估。测试11个模型显示整体性能较低,最佳模型仅获得17.1%的mIoU。
文本编辑能否泛化到视觉生成?统一多模态模型中的跨模态知识编辑基准测试
本文介绍了UniKE,这是首个针对统一多模态模型(UMMs)的跨模态知识编辑基准测试,揭示了显著的模态差距:文本编辑实现了92%的效果,但仅有18.5%迁移到图像生成。它提出了Reasoning-augmented Parameter Editing,以改善跨模态迁移,提升幅度高达18.6个百分点。