MAOAM:基于视觉-语言模型的统一物体与材质选择

Hugging Face Daily Papers 论文

摘要

本文提出MAOAM,一个统一的视觉-语言模型框架,能够通过文本或点击交互实现精确的物体和材质选择,用于交互式图像编辑。它引入了一个可扩展的数据生成流程,并展示了在推理时结合文本和点击的涌现提升。

选择是交互式图像编辑中的核心操作。为了实用,用户应能通过文本或基于点击的交互来指定和区分所需的选择区域,并且系统应支持不仅选择物体,还能选择其他标准,例如材质。基于材质的选择对于诸如重新纹理化表面或编辑特定材质实例等任务非常有价值。然而,现有的基于视觉-语言模型(VLM)的选择方法以物体为中心,且通常支持单一的交互模态,限制了其适用性。因此,在本工作中,我们提出了Mask Any Object And Material (MAOAM),一个统一的选择框架,能够通过文本和基于点击的交互实现精确的物体和材质级选择。MAOAM利用带有分割头的VLM,从用户提示中生成像素级精确的掩码:VLM解释用户的选择意图(物体级或材质级)并编码视觉实体、属性和空间关系,而分割头将输出标记解码为掩码。一个关键挑战是缺乏带有文本标注的材质选择数据集。我们提出了一个可扩展的数据生成流程:收集带有材质掩码的真实和合成图像,并利用VLM生成具有丰富视觉语义的材质描述。我们通过多任务目标训练MAOAM,涵盖点击和基于文本的选择,以及一个从材质描述派生的辅助VQA任务,以促进更深入的材质理解。尽管仅使用单模态提示进行训练,我们的模型在推理时结合文本和点击时,表现出选择上的涌现提升,从而实现灵活的图像编辑工作流程。实验表明,在多种物体、材质和交互场景下,选择准确且连贯,突显了其在实际应用中的鲁棒性。
查看原文
查看缓存全文

缓存时间: 2026/06/05 18:09

论文页面 - MAOAM:基于视觉-语言模型的统一物体与材质选择

来源:https://huggingface.co/papers/2606.04880

摘要

一个统一的视觉-语言模型框架,可通过文本或点击交互实现精确的物体与材质选择,支持多样化的编辑流程,并具备更强的鲁棒性。

选择是交互式图像编辑中的核心操作。为了实用,用户应能通过文本或基于点击的交互来指定并消除所需选择区域的歧义,并且系统应支持不仅选择物体,还能选择其他标准,例如材质。基于材质的选择对于诸如重新纹理表面或编辑特定材质的实例等任务非常有价值。然而,现有的基于视觉-语言模型(VLM)的选择方法以物体为中心,通常只支持单一的交互方式,限制了其适用性。因此,在本工作中,我们提出了Mask Any Object And Material (MAOAM),一个统一的选择框架,能够在基于文本和点击的交互中实现精确的物体和材质级选择。MAOAM利用一个带有分割头的VLM,从用户提示生成像素级精确的遮罩:VLM解释用户的选择意图(物体或材质级),并编码视觉实体、属性和空间关系,而分割头则将输出令牌解码为遮罩。一个关键挑战是缺乏带有文本标注的材质选择数据集。我们提出了一个可扩展的数据生成流程:收集带有材质遮罩的真实与合成图像,并利用VLM生成具有丰富视觉语义的材质描述。我们通过一个多任务目标对MAOAM进行训练,涵盖点击和基于文本的选择,并辅以一个从材质描述衍生的辅助VQA任务,以促进更深层次的材质理解。尽管仅使用单模态提示进行训练,我们的模型在推理时结合文本和点击表现出新兴的选择改进,从而支持灵活的图像编辑工作流程。实验表明,在多种物体、材质和交互场景下,选择准确且连贯,突显了实际应用中的鲁棒性。

查看arXiv页面 (https://arxiv.org/abs/2606.04880) 查看PDF (https://arxiv.org/pdf/2606.04880) 项目页面 (https://jadenpark0.github.io/project_pages/maoam/) GitHub (https://github.com/adobe-research/obj-and-mat-selection) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.04880)

在您的代理中获取此论文:

hf papers read 2606\.04880

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本论文的模型0

没有模型链接本论文

在模型 README.md 中引用 arxiv.org/abs/2606.04880 以从此页面链接。

引用本论文的数据集0

没有数据集链接本论文

在数据集 README.md 中引用 arxiv.org/abs/2606.04880 以从此页面链接。

引用本论文的 Space0

没有 Space 链接本论文

在 Space README.md 中引用 arxiv.org/abs/2606.04880 以从此页面链接。

包含本论文的收藏0

没有收藏包含本论文

将本论文添加到收藏 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

在统一的多模态理解与生成中唤醒空间智能

Hugging Face Daily Papers

本文介绍了 JoyAI-Image,这是一种统一的多模态基础模型,通过整合空间增强的多模态大语言模型(MLLM)与多模态扩散 Transformer(MMDiT),在视觉理解、文生图生成以及指令引导编辑方面取得了最先进的性能。

超越文本主导:理解全模态大语言模型的模态偏好

Hugging Face Daily Papers

# 论文页面 - 超越文本主导:理解全模态大语言模型的模态偏好 来源:[https://huggingface.co/papers/2604.16902](https://huggingface.co/papers/2604.16902) ## 摘要 研究发现,原生全模态大语言模型表现出相对于文本的视觉偏好,模态偏好在模型中后层逐步涌现,并可用于诊断跨模态幻觉。原生[全模态大语言模型](https://huggingfa