SAM 3D Animal:基于提示的野外动物三维重建
摘要
SAM 3D Animal提出了一个基于提示的框架,用于从单张野外图像中进行多动物三维重建,该框架基于SMAL+模型,在多个数据集上取得了最先进的结果。
查看缓存全文
缓存时间: 2026/05/22 18:21
论文页面 - SAM 3D Animal:基于提示的野外动物3D重建
来源:https://huggingface.co/papers/2605.07604
摘要
SAM 3D Animal利用基于SMAL+模型的可提示框架,通过关键点和掩码增强歧义消除,实现从单张图像进行多动物3D重建。
由于物种差异大、频繁遮挡以及多动物场景普遍存在,野外动物3D重建仍具挑战性,而现有方法主要聚焦于单动物环境。我们提出SAM 3D Animal,这是首个可提示框架(https://huggingface.co/papers?q=promptable%20framework),用于从单张图像进行多动物3D重建(https://huggingface.co/papers?q=multi-animal%203D%20reconstruction)。该方法基于SMAL+(https://huggingface.co/papers?q=SMAL%2B)参数化动物模型,能够联合重建多个实例,并支持以关键点(https://huggingface.co/papers?q=keypoints)和掩码(https://huggingface.co/papers?q=masks)形式提供的灵活提示,从而在拥挤和遮挡场景中实现更可靠的歧义消除。为训练此类模型,我们还引入了Herd3D——一个包含5000多张图像的多动物3D数据集,旨在增加物种、交互和遮挡模式的多样性。在Animal3D、APTv2和Animal Kingdom数据集上的实验表明,我们的框架在现有基于模型和无模型方法(https://huggingface.co/papers?q=model-free%20methods)中均取得了最先进的结果,为野外提示驱动的动物3D重建提供了可扩展且有效的解决方案。
查看arXiv页面(https://arxiv.org/abs/2605.07604)查看PDF(https://arxiv.org/pdf/2605.07604)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.07604)
在您的Agent中获取此论文:
hf papers read 2605\.07604
没有最新CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用本论文的模型0
无模型链接此论文
请在模型README.md中引用arxiv.org/abs/2605.07604以从此页面链接。
引用本论文的数据集0
无数据集链接此论文
请在数据集README.md中引用arxiv.org/abs/2605.07604以从此页面链接。
引用本论文的Spaces0
无Space链接此论文
请在Space README.md中引用arxiv.org/abs/2605.07604以从此页面链接。
收录本论文的收藏集0
无收藏集包含此论文
请将本论文添加到收藏集(https://huggingface.co/new-collection)中以从此页面链接。
相似文章
SAM 3D Body:鲁棒的全人体网格恢复
SAM 3D Body 是一个可提示的3D人体网格恢复模型,采用新颖的参数化表示(MHR)和编码器-解码器架构,实现了最先进的性能并具备强泛化能力。该模型支持辅助提示,并且是开源的。
SAM 3: Segment Anything with Concepts
SAM 3 引入了一个统一的模型,用于基于提示的概念分割与跟踪,通过解耦的识别与定位架构以及可扩展的数据引擎,实现了最先进的性能。
@skalskip92: 没有陷阱;SAM3是开源的,真的很棒,它在物体追踪方面表现出色,即便在……
SAM3(Segment Anything Model 3)是开源的,在物体追踪方面表现异常出色,即使在像篮球这样复杂的场景中也是如此,使其成为一款杰出的计算机视觉模型。
@lillyguisnet: 哇塞!!!我还没有机会尝试SAM3.1,但仅仅用"worm"这个提示就能完美分割我的图像!…
一位用户分享了关于SAM 3.1的热情反馈:仅用'worm'等简单文本提示即可精准分割图像,相比SAM 1有显著提升。
SAM 3.1:通过多路复用和全局推理实现更快、更易用的实时视频检测与跟踪
Meta AI 发布了 SAM 3.1,这是 Segment Anything Model(分割一切模型)的一次更新,通过引入多路复用和全局推理能力,增强了实时视频检测与跟踪性能。