UniMesh:统一3D网格理解与生成
摘要
UniMesh通过单一模型,借助Mesh Head、链式网格迭代编辑和自省纠错机制,同时完成3D网格生成与理解任务。
查看缓存全文
缓存时间: 2026/04/22 06:17
论文页面 - UniMesh:统一3D网格理解与生成
来源:https://huggingface.co/papers/2604.17472
摘要
UniMesh 提出了一种统一框架,通过新颖组件——Mesh Head、链式网格(Chain of Mesh)迭代编辑机制,以及用于纠错的自反思机制——将3D生成与理解任务合二为一。
近期3D视觉(https://huggingface.co/papers?q=3D%20vision)进展催生了专门模型,分别聚焦于3D理解(如形状分类、分割、重建)或3D生成(如合成、补全、编辑)。然而,这些任务通常被孤立处理,导致架构与表示碎片化,阻碍知识迁移与整体场景建模。为此,我们提出UniMesh,在单一架构内联合学习3D生成与理解。首先,我们引入全新Mesh Head(https://huggingface.co/papers?q=Mesh%20Head),作为跨模型接口,连接基于扩散的图像生成(https://huggingface.co/papers?q=diffusion%20based%20image%20generation)与隐式形状解码器(https://huggingface.co/papers?q=implicit%20shape%20decoders)。其次,我们开发链式网格(Chain of Mesh,CoM)(https://huggingface.co/papers?q=Chain%20of%20Mesh),一种几何化的迭代推理(https://huggingface.co/papers?q=iterative%20reasoning)实例,通过闭环潜空间、提示与再生成循环,实现用户驱动的语义网格编辑(https://huggingface.co/papers?q=semantic%20mesh%20editing)。第三,我们引入基于“Actor-Evaluator-自反思”三元组(https://huggingface.co/papers?q=Actor%20Evaluator%20Self%20reflection%20triad)的自反思机制,诊断并纠正3D字幕(https://huggingface.co/papers?q=3D%20captioning)等高层任务中的失败。实验表明,UniMesh不仅标准基准性能优异,还解锁了迭代编辑及生成与理解相互增强的新能力。代码:https://github.com/AIGeeksGroup/UniMesh。项目主页:https://aigeeksgroup.github.io/UniMesh。
查看 arXiv 页面(https://arxiv.org/abs/2604.17472)
查看 PDF(https://arxiv.org/pdf/2604.17472)
项目主页(https://aigeeksgroup.github.io/UniMesh/)
GitHub(https://github.com/AIGeeksGroup/UniMesh)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.17472)
在智能体中获取本文:
hf papers read 2604.17472
尚未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 0
暂无模型引用该论文
在模型 README.md 中引用 arxiv.org/abs/2604.17472 即可在此页面显示链接。
引用该论文的数据集 0
暂无数据集引用该论文
在数据集 README.md 中引用 arxiv.org/abs/2604.17472 即可在此页面显示链接。
引用该论文的 Spaces 0
暂无 Space 引用该论文
在 Space README.md 中引用 arxiv.org/abs/2604.17472 即可在此页面显示链接。
收录该论文的合集 0
暂无合集收录该论文
将该论文添加到合集(https://huggingface.co/new-collection)即可在此页面显示链接。
相似文章
UniPath: 统一多模态推理中理解与生成的适应性协调
UniPath 提出了一种框架,用于统一多模态模型中理解与生成的适应性协调,利用协调路径多样性来提升相对于固定策略的性能。
通过理解监督引导统一多模态模型中的视觉生成
本文介绍了 UNO,这是一种以理解为导向的后训练框架,利用理解任务作为监督信号,以增强统一多模态模型中的图像生成和编辑能力。
在统一的多模态理解与生成中唤醒空间智能
本文介绍了 JoyAI-Image,这是一种统一的多模态基础模型,通过整合空间增强的多模态大语言模型(MLLM)与多模态扩散 Transformer(MMDiT),在视觉理解、文生图生成以及指令引导编辑方面取得了最先进的性能。
UniPool:一种用于混合专家模型的全球共享专家池
UniPool 为混合专家(MoE)模型引入了一种共享专家池架构,在降低参数随深度增长的同时,相较于标准 MoE 基线提高了效率和性能。
HERMES++:迈向用于 3D 场景理解与生成的统一驾驶世界模型
本文介绍了 HERMES++,这是一种统一的驾驶世界模型,它利用 BEV 表示、大语言模型(LLM)增强的查询以及联合几何优化,整合了 3D 场景理解和未来几何预测。