ETCHR:编辑以澄清和利用推理

Hugging Face Daily Papers 论文

摘要

ETCHR是一种新颖的图像编辑方法,它将视觉推理与图像生成解耦,采用两阶段训练过程(推理模仿和推理增强)来提升多模态语言模型在五个视觉推理任务上的性能。在Qwen3-VL-8B、Gemini-3.1-Flash-Lite和Kimi K2.5等模型上,Pass@1持续提升4-5%。

多模态大语言模型推动了视觉推理的发展,但纯文本思维链对于需要细粒度关注或视角变换的问题仍然是瓶颈。“用图像思考”范式缩小了这一差距,但现有方法要么受限于固定的预定义工具包,要么通过统一的多模态方法产生噪声较多的中间图像。我们追求第三种选择:使用专用的图像编辑模型,并将其与理解模型解耦。然而,现成的图像编辑器作为推理辅助工具存在两个互补的缺陷:语言侧差距,即作为被动指令跟随者训练的编辑器无法将抽象问题映射到适当的视觉变换;以及生成侧差距,即随着推理深度增加,编辑正确性下降。基于这一分析,我们提出了ETCHR(编辑以澄清和利用推理),这是一个以问题为条件、具有推理意识的图像编辑器,与下游理解模型解耦,并采用针对这两个差距的两阶段训练方法:首先通过编辑轨迹上的监督微调进行推理模仿,然后通过VLM派生的奖励进行推理增强,以提升编辑正确性和下游推理准确性。由于编辑器是解耦的,ETCHR可以以无需训练的方式接入不同的开源和闭源多模态大语言模型。在五个任务族(细粒度感知、图表理解、逻辑推理、拼图恢复和3D理解)上,ETCHR将平均Pass@1从55.95提升到60.77(+4.82,基于Qwen3-VL-8B),从65.08提升到70.55(+5.47,基于Gemini-3.1-Flash-Lite),以及从76.55提升到81.16(+4.61,基于1T参数的MoE模型Kimi K2.5)。
查看原文
查看缓存全文

缓存时间: 2026/05/25 02:35

论文页面 - ETCHR:通过编辑来阐明和利用推理

来源:https://huggingface.co/papers/2605.23897

摘要

本文提出了一种名为 ETCHR 的新型图像编辑方法,它将视觉推理与图像生成解耦,通过两阶段训练过程提升多模态语言模型在多个视觉推理任务上的性能。

多模态大语言模型(Multimodal Large Language Models)在视觉推理(visual reasoning)方面取得了进展,但对于需要细粒度关注或视角变换的问题,纯文本的思维链(chain of thought)仍然是一个瓶颈。“用图像思考(think with images)“范式缩小了这一差距,但现有方法要么受限于固定的预定义工具包,要么因统一的多模态方法而产生噪声的中间图像。我们探索了第三种方案:使用专用的图像编辑模型(image editing model),并将其与理解模型解耦。然而,现成的图像编辑器作为推理助手存在两个互补的不足:语言侧的不足——训练为被动指令跟随者的编辑器无法将抽象问题映射到适当的视觉变换;以及生成侧的不足——随着推理深度的增加,编辑正确性会下降。基于这一分析,我们引入了 ETCHR(Editing To Clarify and Harness Reasoning,即通过编辑来阐明和利用推理),这是一种面向问题、具备推理意识的图像编辑器(reasoning-aware image editor),与下游理解模型解耦,并通过针对这两个不足的两阶段训练策略进行训练:首先是基于编辑轨迹的监督微调进行推理模仿(Reasoning Imitation),随后利用来自 VLM 的奖励信号(VLM-derived rewards)进行推理增强(Reasoning Enhancement),以兼顾编辑正确性和下游推理准确性。由于编辑器是解耦的,ETCHR 可以以无需训练的方式接入不同的开源和闭源 MLLM。在五类任务(细粒度感知、图表理解、逻辑推理、拼图复原和 3D 理解)中,ETCHR 将平均 Pass@1 分别从 55.95 提升至 60.77(+4.82,配合 Qwen3-VL-8B),从 65.08 提升至 70.55(+5.47,配合 Gemini-3.1-Flash-Lite),以及从 76.55 提升至 81.16(+4.61,配合 1T 参数的 MoE 模型 Kimi K2.5)。

查看 arXiv 页面(https://arxiv.org/abs/2605.23897)
查看 PDF(https://arxiv.org/pdf/2605.23897)
GitHub(6)(https://github.com/InternLM/ETCHR)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.23897)

在您的 agent 中获取此论文:

hf papers read 2605.23897

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型(0)

暂无与此论文关联的模型

请在模型 README.md 中引用 arxiv.org/abs/2605.23897 以在此页面建立链接。

引用此论文的数据集(0)

暂无与此论文关联的数据集

请在数据集 README.md 中引用 arxiv.org/abs/2605.23897 以在此页面建立链接。

引用此论文的 Spaces(0)

暂无与此论文关联的 Space

请在 Space README.md 中引用 arxiv.org/abs/2605.23897 以在此页面建立链接。

包含此论文的收藏(0)

暂无包含此论文的收藏

请将此论文添加到一个收藏(https://huggingface.co/new-collection)中以在此页面建立链接。

相似文章

STRIDE-ED: 一个策略驱动的多步推理框架用于同情心对话系统

arXiv cs.CL

STRIDE-ED 是一个为同情心对话系统设计的策略驱动推理框架,它结合了结构化的多阶段推理、数据精化管道和两阶段训练(有监督微调 + 多目标强化学习)来改进情感理解和回复生成。该框架在开源大语言模型上的自动评指标和人工评估上都展示了一致的改进。

用图像思考

OpenAI Blog

OpenAI 发布了 o3 和 o4-mini 模型,这些模型能够在链式思维过程中对图像进行推理,通过裁剪和缩放等原生图像操作工具实现视觉理解,无需额外的专用模型。这些模型在包括 STEM 问题、图表阅读和视觉搜索任务在内的多模态基准上达到了最先进的性能。