MAOAM：基于视觉-语言模型的统一物体与材质选择

Hugging Face Daily Papers 2026/06/02 00:00 论文

摘要

本文提出MAOAM，一个统一的视觉-语言模型框架，能够通过文本或点击交互实现精确的物体和材质选择，用于交互式图像编辑。它引入了一个可扩展的数据生成流程，并展示了在推理时结合文本和点击的涌现提升。

选择是交互式图像编辑中的核心操作。为了实用，用户应能通过文本或基于点击的交互来指定和区分所需的选择区域，并且系统应支持不仅选择物体，还能选择其他标准，例如材质。基于材质的选择对于诸如重新纹理化表面或编辑特定材质实例等任务非常有价值。然而，现有的基于视觉-语言模型（VLM）的选择方法以物体为中心，且通常支持单一的交互模态，限制了其适用性。因此，在本工作中，我们提出了Mask Any Object And Material (MAOAM)，一个统一的选择框架，能够通过文本和基于点击的交互实现精确的物体和材质级选择。MAOAM利用带有分割头的VLM，从用户提示中生成像素级精确的掩码：VLM解释用户的选择意图（物体级或材质级）并编码视觉实体、属性和空间关系，而分割头将输出标记解码为掩码。一个关键挑战是缺乏带有文本标注的材质选择数据集。我们提出了一个可扩展的数据生成流程：收集带有材质掩码的真实和合成图像，并利用VLM生成具有丰富视觉语义的材质描述。我们通过多任务目标训练MAOAM，涵盖点击和基于文本的选择，以及一个从材质描述派生的辅助VQA任务，以促进更深入的材质理解。尽管仅使用单模态提示进行训练，我们的模型在推理时结合文本和点击时，表现出选择上的涌现提升，从而实现灵活的图像编辑工作流程。实验表明，在多种物体、材质和交互场景下，选择准确且连贯，突显了其在实际应用中的鲁棒性。

查看原文

查看缓存全文

缓存时间: 2026/06/05 18:09

论文页面 - MAOAM：基于视觉-语言模型的统一物体与材质选择

来源：https://huggingface.co/papers/2606.04880

摘要

一个统一的视觉-语言模型框架，可通过文本或点击交互实现精确的物体与材质选择，支持多样化的编辑流程，并具备更强的鲁棒性。

选择是交互式图像编辑中的核心操作。为了实用，用户应能通过文本或基于点击的交互来指定并消除所需选择区域的歧义，并且系统应支持不仅选择物体，还能选择其他标准，例如材质。基于材质的选择对于诸如重新纹理表面或编辑特定材质的实例等任务非常有价值。然而，现有的基于视觉-语言模型（VLM）的选择方法以物体为中心，通常只支持单一的交互方式，限制了其适用性。因此，在本工作中，我们提出了Mask Any Object And Material (MAOAM)，一个统一的选择框架，能够在基于文本和点击的交互中实现精确的物体和材质级选择。MAOAM利用一个带有分割头的VLM，从用户提示生成像素级精确的遮罩：VLM解释用户的选择意图（物体或材质级），并编码视觉实体、属性和空间关系，而分割头则将输出令牌解码为遮罩。一个关键挑战是缺乏带有文本标注的材质选择数据集。我们提出了一个可扩展的数据生成流程：收集带有材质遮罩的真实与合成图像，并利用VLM生成具有丰富视觉语义的材质描述。我们通过一个多任务目标对MAOAM进行训练，涵盖点击和基于文本的选择，并辅以一个从材质描述衍生的辅助VQA任务，以促进更深层次的材质理解。尽管仅使用单模态提示进行训练，我们的模型在推理时结合文本和点击表现出新兴的选择改进，从而支持灵活的图像编辑工作流程。实验表明，在多种物体、材质和交互场景下，选择准确且连贯，突显了实际应用中的鲁棒性。

查看arXiv页面 (https://arxiv.org/abs/2606.04880) 查看PDF (https://arxiv.org/pdf/2606.04880) 项目页面 (https://jadenpark0.github.io/project_pages/maoam/) GitHub (https://github.com/adobe-research/obj-and-mat-selection) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.04880)

在您的代理中获取此论文：

hf papers read 2606\.04880

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本论文的模型0

没有模型链接本论文

在模型 README.md 中引用 arxiv.org/abs/2606.04880 以从此页面链接。

引用本论文的数据集0

没有数据集链接本论文

在数据集 README.md 中引用 arxiv.org/abs/2606.04880 以从此页面链接。

引用本论文的 Space0

没有 Space 链接本论文

在 Space README.md 中引用 arxiv.org/abs/2606.04880 以从此页面链接。

包含本论文的收藏0

没有收藏包含本论文

将本论文添加到收藏 (https://huggingface.co/new-collection) 以从此页面链接。

MAOAM：基于视觉-语言模型的统一物体与材质选择

论文页面 - MAOAM：基于视觉-语言模型的统一物体与材质选择

摘要

引用本论文的模型0

引用本论文的数据集0

引用本论文的 Space0

包含本论文的收藏0

相似文章

在统一的多模态理解与生成中唤醒空间智能

超越文本主导：理解全模态大语言模型的模态偏好

通过理解监督引导统一多模态模型中的视觉生成

LoMo: 局部模态替换以实现更深层的视觉-语言融合

@AdinaYakup: @Open_MOSS 发布 MOSS-VL 视觉模型：https://huggingface.co/collections/OpenMOSS-Team/moss-vl… 演示：https://hug…

提交意见反馈