ETCHR:编辑以澄清和利用推理
摘要
ETCHR是一种新颖的图像编辑方法,它将视觉推理与图像生成解耦,采用两阶段训练过程(推理模仿和推理增强)来提升多模态语言模型在五个视觉推理任务上的性能。在Qwen3-VL-8B、Gemini-3.1-Flash-Lite和Kimi K2.5等模型上,Pass@1持续提升4-5%。
查看缓存全文
缓存时间: 2026/05/25 02:35
论文页面 - ETCHR:通过编辑来阐明和利用推理
来源:https://huggingface.co/papers/2605.23897
摘要
本文提出了一种名为 ETCHR 的新型图像编辑方法,它将视觉推理与图像生成解耦,通过两阶段训练过程提升多模态语言模型在多个视觉推理任务上的性能。
多模态大语言模型(Multimodal Large Language Models)在视觉推理(visual reasoning)方面取得了进展,但对于需要细粒度关注或视角变换的问题,纯文本的思维链(chain of thought)仍然是一个瓶颈。“用图像思考(think with images)“范式缩小了这一差距,但现有方法要么受限于固定的预定义工具包,要么因统一的多模态方法而产生噪声的中间图像。我们探索了第三种方案:使用专用的图像编辑模型(image editing model),并将其与理解模型解耦。然而,现成的图像编辑器作为推理助手存在两个互补的不足:语言侧的不足——训练为被动指令跟随者的编辑器无法将抽象问题映射到适当的视觉变换;以及生成侧的不足——随着推理深度的增加,编辑正确性会下降。基于这一分析,我们引入了 ETCHR(Editing To Clarify and Harness Reasoning,即通过编辑来阐明和利用推理),这是一种面向问题、具备推理意识的图像编辑器(reasoning-aware image editor),与下游理解模型解耦,并通过针对这两个不足的两阶段训练策略进行训练:首先是基于编辑轨迹的监督微调进行推理模仿(Reasoning Imitation),随后利用来自 VLM 的奖励信号(VLM-derived rewards)进行推理增强(Reasoning Enhancement),以兼顾编辑正确性和下游推理准确性。由于编辑器是解耦的,ETCHR 可以以无需训练的方式接入不同的开源和闭源 MLLM。在五类任务(细粒度感知、图表理解、逻辑推理、拼图复原和 3D 理解)中,ETCHR 将平均 Pass@1 分别从 55.95 提升至 60.77(+4.82,配合 Qwen3-VL-8B),从 65.08 提升至 70.55(+5.47,配合 Gemini-3.1-Flash-Lite),以及从 76.55 提升至 81.16(+4.61,配合 1T 参数的 MoE 模型 Kimi K2.5)。
查看 arXiv 页面(https://arxiv.org/abs/2605.23897)
查看 PDF(https://arxiv.org/pdf/2605.23897)
GitHub(6)(https://github.com/InternLM/ETCHR)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.23897)
在您的 agent 中获取此论文:
hf papers read 2605.23897
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型(0)
暂无与此论文关联的模型
请在模型 README.md 中引用 arxiv.org/abs/2605.23897 以在此页面建立链接。
引用此论文的数据集(0)
暂无与此论文关联的数据集
请在数据集 README.md 中引用 arxiv.org/abs/2605.23897 以在此页面建立链接。
引用此论文的 Spaces(0)
暂无与此论文关联的 Space
请在 Space README.md 中引用 arxiv.org/abs/2605.23897 以在此页面建立链接。
包含此论文的收藏(0)
暂无包含此论文的收藏
请将此论文添加到一个收藏(https://huggingface.co/new-collection)中以在此页面建立链接。
相似文章
SmartPhotoCrafter:统一推理、生成与优化的自动摄影图像编辑
SmartPhotoCrafter 提出一条无需显式人工指令即可统一质量理解与增强的自动摄影图像编辑流水线,在真实感增强任务上超越现有生成模型。
STRIDE-ED: 一个策略驱动的多步推理框架用于同情心对话系统
STRIDE-ED 是一个为同情心对话系统设计的策略驱动推理框架,它结合了结构化的多阶段推理、数据精化管道和两阶段训练(有监督微调 + 多目标强化学习)来改进情感理解和回复生成。该框架在开源大语言模型上的自动评指标和人工评估上都展示了一致的改进。
TTE-Flash:通过先思后嵌入令牌加速基于推理的多模态表示
论文介绍了TTE-Flash,一种用潜在思考令牌替换显式思维链推理的方法,以恒定推理成本生成推理感知的多模态表示,在MMEB-v2基准测试上优于显式CoT基线。
向思维模型教授工具推理:工具集成推理的全流程方案
本文提出了一种全流程方案,用于向思维模型教授工具推理,该方法应用于 Qwen3 模型时,在 AIME 2025 等基准测试上实现了最先进的性能。
用图像思考
OpenAI 发布了 o3 和 o4-mini 模型,这些模型能够在链式思维过程中对图像进行推理,通过裁剪和缩放等原生图像操作工具实现视觉理解,无需额外的专用模型。这些模型在包括 STEM 问题、图表阅读和视觉搜索任务在内的多模态基准上达到了最先进的性能。