UniMesh:统一3D网格理解与生成

Hugging Face Daily Papers 论文

摘要

UniMesh通过单一模型,借助Mesh Head、链式网格迭代编辑和自省纠错机制,同时完成3D网格生成与理解任务。

近年来3D视觉的进展催生了专用于“3D理解”(如形状分类、分割、重建)或“3D生成”(如合成、补全、编辑)的模型。然而,这些任务通常被孤立处理,导致架构与表征碎片化,阻碍知识迁移与整体场景建模。为此,我们提出UniMesh——在单一架构内联合学习3D生成与理解的统一框架。首先,我们设计新颖的Mesh Head作为跨模型接口,连接基于扩散的图像生成与隐式形状解码器。其次,我们提出链式网格(Chain-of-Mesh, CoM),一种几何化的迭代推理实例,通过闭环潜空间、提示与再生成循环,实现用户驱动的语义网格编辑。第三,我们引入基于“Actor-Evaluator-自反思”三元组的自省机制,诊断并纠正3D描述等高层任务中的失败。实验表明,UniMesh不仅在标准基准上取得有竞争力的性能,还解锁了迭代编辑以及生成与理解相互增强的新能力。代码:https://github.com/AIGeeksGroup/UniMesh。项目主页:https://aigeeksgroup.github.io/UniMesh。
查看原文
查看缓存全文

缓存时间: 2026/04/22 06:17

论文页面 - UniMesh:统一3D网格理解与生成

来源:https://huggingface.co/papers/2604.17472

摘要

UniMesh 提出了一种统一框架,通过新颖组件——Mesh Head、链式网格(Chain of Mesh)迭代编辑机制,以及用于纠错的自反思机制——将3D生成与理解任务合二为一。

近期3D视觉(https://huggingface.co/papers?q=3D%20vision)进展催生了专门模型,分别聚焦于3D理解(如形状分类、分割、重建)或3D生成(如合成、补全、编辑)。然而,这些任务通常被孤立处理,导致架构与表示碎片化,阻碍知识迁移与整体场景建模。为此,我们提出UniMesh,在单一架构内联合学习3D生成与理解。首先,我们引入全新Mesh Head(https://huggingface.co/papers?q=Mesh%20Head),作为跨模型接口,连接基于扩散的图像生成(https://huggingface.co/papers?q=diffusion%20based%20image%20generation)与隐式形状解码器(https://huggingface.co/papers?q=implicit%20shape%20decoders)。其次,我们开发链式网格(Chain of Mesh,CoM)(https://huggingface.co/papers?q=Chain%20of%20Mesh),一种几何化的迭代推理(https://huggingface.co/papers?q=iterative%20reasoning)实例,通过闭环潜空间、提示与再生成循环,实现用户驱动的语义网格编辑(https://huggingface.co/papers?q=semantic%20mesh%20editing)。第三,我们引入基于“Actor-Evaluator-自反思”三元组(https://huggingface.co/papers?q=Actor%20Evaluator%20Self%20reflection%20triad)的自反思机制,诊断并纠正3D字幕(https://huggingface.co/papers?q=3D%20captioning)等高层任务中的失败。实验表明,UniMesh不仅标准基准性能优异,还解锁了迭代编辑及生成与理解相互增强的新能力。代码:https://github.com/AIGeeksGroup/UniMesh。项目主页:https://aigeeksgroup.github.io/UniMesh。

查看 arXiv 页面(https://arxiv.org/abs/2604.17472)
查看 PDF(https://arxiv.org/pdf/2604.17472)
项目主页(https://aigeeksgroup.github.io/UniMesh/)
GitHub(https://github.com/AIGeeksGroup/UniMesh)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.17472)

在智能体中获取本文:

hf papers read 2604.17472

尚未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型引用该论文

在模型 README.md 中引用 arxiv.org/abs/2604.17472 即可在此页面显示链接。

引用该论文的数据集 0

暂无数据集引用该论文

在数据集 README.md 中引用 arxiv.org/abs/2604.17472 即可在此页面显示链接。

引用该论文的 Spaces 0

暂无 Space 引用该论文

在 Space README.md 中引用 arxiv.org/abs/2604.17472 即可在此页面显示链接。

收录该论文的合集 0

暂无合集收录该论文

将该论文添加到合集(https://huggingface.co/new-collection)即可在此页面显示链接。

相似文章

在统一的多模态理解与生成中唤醒空间智能

Hugging Face Daily Papers

本文介绍了 JoyAI-Image,这是一种统一的多模态基础模型,通过整合空间增强的多模态大语言模型(MLLM)与多模态扩散 Transformer(MMDiT),在视觉理解、文生图生成以及指令引导编辑方面取得了最先进的性能。