MAOAM:基于视觉-语言模型的统一物体与材质选择
摘要
本文提出MAOAM,一个统一的视觉-语言模型框架,能够通过文本或点击交互实现精确的物体和材质选择,用于交互式图像编辑。它引入了一个可扩展的数据生成流程,并展示了在推理时结合文本和点击的涌现提升。
查看缓存全文
缓存时间: 2026/06/05 18:09
论文页面 - MAOAM:基于视觉-语言模型的统一物体与材质选择
来源:https://huggingface.co/papers/2606.04880
摘要
一个统一的视觉-语言模型框架,可通过文本或点击交互实现精确的物体与材质选择,支持多样化的编辑流程,并具备更强的鲁棒性。
选择是交互式图像编辑中的核心操作。为了实用,用户应能通过文本或基于点击的交互来指定并消除所需选择区域的歧义,并且系统应支持不仅选择物体,还能选择其他标准,例如材质。基于材质的选择对于诸如重新纹理表面或编辑特定材质的实例等任务非常有价值。然而,现有的基于视觉-语言模型(VLM)的选择方法以物体为中心,通常只支持单一的交互方式,限制了其适用性。因此,在本工作中,我们提出了Mask Any Object And Material (MAOAM),一个统一的选择框架,能够在基于文本和点击的交互中实现精确的物体和材质级选择。MAOAM利用一个带有分割头的VLM,从用户提示生成像素级精确的遮罩:VLM解释用户的选择意图(物体或材质级),并编码视觉实体、属性和空间关系,而分割头则将输出令牌解码为遮罩。一个关键挑战是缺乏带有文本标注的材质选择数据集。我们提出了一个可扩展的数据生成流程:收集带有材质遮罩的真实与合成图像,并利用VLM生成具有丰富视觉语义的材质描述。我们通过一个多任务目标对MAOAM进行训练,涵盖点击和基于文本的选择,并辅以一个从材质描述衍生的辅助VQA任务,以促进更深层次的材质理解。尽管仅使用单模态提示进行训练,我们的模型在推理时结合文本和点击表现出新兴的选择改进,从而支持灵活的图像编辑工作流程。实验表明,在多种物体、材质和交互场景下,选择准确且连贯,突显了实际应用中的鲁棒性。
查看arXiv页面 (https://arxiv.org/abs/2606.04880) 查看PDF (https://arxiv.org/pdf/2606.04880) 项目页面 (https://jadenpark0.github.io/project_pages/maoam/) GitHub (https://github.com/adobe-research/obj-and-mat-selection) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.04880)
在您的代理中获取此论文:
hf papers read 2606\.04880
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用本论文的模型0
没有模型链接本论文
在模型 README.md 中引用 arxiv.org/abs/2606.04880 以从此页面链接。
引用本论文的数据集0
没有数据集链接本论文
在数据集 README.md 中引用 arxiv.org/abs/2606.04880 以从此页面链接。
引用本论文的 Space0
没有 Space 链接本论文
在 Space README.md 中引用 arxiv.org/abs/2606.04880 以从此页面链接。
包含本论文的收藏0
没有收藏包含本论文
将本论文添加到收藏 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
在统一的多模态理解与生成中唤醒空间智能
本文介绍了 JoyAI-Image,这是一种统一的多模态基础模型,通过整合空间增强的多模态大语言模型(MLLM)与多模态扩散 Transformer(MMDiT),在视觉理解、文生图生成以及指令引导编辑方面取得了最先进的性能。
超越文本主导:理解全模态大语言模型的模态偏好
# 论文页面 - 超越文本主导:理解全模态大语言模型的模态偏好 来源:[https://huggingface.co/papers/2604.16902](https://huggingface.co/papers/2604.16902) ## 摘要 研究发现,原生全模态大语言模型表现出相对于文本的视觉偏好,模态偏好在模型中后层逐步涌现,并可用于诊断跨模态幻觉。原生[全模态大语言模型](https://huggingfa
通过理解监督引导统一多模态模型中的视觉生成
本文介绍了 UNO,这是一种以理解为导向的后训练框架,利用理解任务作为监督信号,以增强统一多模态模型中的图像生成和编辑能力。
LoMo: 局部模态替换以实现更深层的视觉-语言融合
LoMo 提出了一种数据整理方法,将单模态提示重新表述为交错的多模态序列,以改善视觉-语言模型中的跨模态表示对齐,在多个基准测试上取得了持续的性能提升。
@AdinaYakup: @Open_MOSS 发布 MOSS-VL 视觉模型:https://huggingface.co/collections/OpenMOSS-Team/moss-vl… 演示:https://hug…
Open_MOSS 开源 110 亿参数 Apache 2.0 视觉-语言模型 MOSS-VL,采用交叉注意力与 XRoPE,在 VSI-bench 上比 Qwen3-VL-8B 高 8.3 分。