解锁VLM中的稠密度量深度估计
摘要
DepthVLM通过轻量级深度头和统一的视觉-文本监督增强了视觉语言模型,实现了稠密度量深度估计和改进的3D空间推理,同时保持了多模态能力。
查看缓存全文
缓存时间: 2026/05/18 06:24
论文页面 — Unlocking Dense Metric Depth Estimation in VLMs
来源:https://huggingface.co/papers/2605.15876
摘要
DepthVLM 通过轻量级深度头和统一的视觉‑文本监督,增强了视觉‑语言模型的密集几何预测能力,实现了更优的 3D 空间推理同时维持了多模态能力。
视觉‑语言模型 (https://huggingface.co/papers?q=Vision-Language%20Models)(VLMs)在二维任务(如定位与描述)中表现出色,但在三维理解方面仍存在局限。一个关键限制是其纯文本监督范式,该范式对细粒度视觉感知约束不足,且无法恢复密集几何信息 (https://huggingface.co/papers?q=dense%20geometry)。先前的方法要么从外部视觉模型中蒸馏几何信息导致错误累积,要么通过低效的逐像素查询或粗粒度的词元级输出实现直接预测。本文提出 DepthVLM,一个简单而有效的框架,能够将单个 VLM 转换为原生的密集几何 (https://huggingface.co/papers?q=dense%20geometry) 预测器,同时保持其多模态能力。通过在 LLM 骨干上附加轻量级深度头 (https://huggingface.co/papers?q=depth%20head),并在统一的视觉‑文本监督 (https://huggingface.co/papers?q=vision-text%20supervision) 范式下采用两阶段调度进行训练,DepthVLM 在单次前向传播中同时生成全分辨率深度图和语言输出。我们进一步引入了一个统一室内外度量深度基准(采用 VLM 兼容格式)。实验表明,DepthVLM 显著优于现有 VLM,推理效率更高,超越了领先的纯视觉模型,并改进了复杂的 3D 空间推理 (https://huggingface.co/papers?q=3D%20spatial%20reasoning),朝着真正的统一基础模型 (https://huggingface.co/papers?q=unified%20foundation%20model) 迈进。所有代码和检查点将公开发布。
查看 arXiv 页面 (https://arxiv.org/abs/2605.15876) 查看 PDF (https://arxiv.org/pdf/2605.15876) 项目页面 (https://depthvlm.github.io/) GitHub (https://github.com/hanxunyu/DepthVLM) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.15876)
在你的 Agent 中获取本文:
hf papers read 2605\.15876
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用本文的模型1
JonnyYu828/DepthVLM‑4B 深度估计 • 5B • 约 2 小时前更新 • 10 • 2 (https://huggingface.co/JonnyYu828/DepthVLM-4B)
引用本文的数据集1
JonnyYu828/DepthVLM‑Bench 预览 • 约 2 小时前更新 • 2 (https://huggingface.co/datasets/JonnyYu828/DepthVLM-Bench)
引用本文的 Spaces0
暂无 Spaces 关联此论文
请在 Space 的 README.md 中引用 arxiv.org/abs/2605.15876,以便从此页面关联。
包含本文的收藏0
暂无收藏包含此论文
请将此论文添加到收藏 (https://huggingface.co/new-collection) 中,以便从此页面关联。
相似文章
LLaVA-UHD v4:高效视觉编码在 MLLMs 中的关键要素是什么?
本文介绍了 LLaVA-UHD v4,该模型通过采用基于切片(slice-based)的编码和 ViT 内部早期压缩,提高了多模态大语言模型中的视觉编码效率。它在保持或提升高分辨率图像任务性能的同时,将计算成本降低了 55% 以上。
大型视觉-语言模型在注意力机制中迷失
这篇研究论文利用信息论分析了大型视觉-语言模型(LVLM)的内部机制,揭示了注意力机制可能存在冗余,而前馈网络才是推动语义创新的关键。作者证明,将学习到的注意力权重替换为随机值仍可获得相当的性能,这表明当前模型“在注意力中迷失”。
GeoStack:一种用于VLMs中拟阿贝尔知识组合的框架
GeoStack 引入了一种几何框架,用于在视觉语言模型中组合独立训练的领域专家,而不会出现灾难性遗忘,实现了常数时间推理,并将几何误差降低了10倍。
@cjzafir: 垂直语言模型(VLMs)正在击败顶级大语言模型。这些参数量7B到15B的小型专精模型在各自的细分领域击败了SoTA模型……
作者演示了,通过使用开源模型和Codex编排进行高性价比微调,小型垂直语言模型(6B-15B)能够在细分基准上超越顶级大语言模型,仅用价值300美元的数据集就取得了成果。
MemLens:大规模视觉-语言模型中多模态长期记忆的基准测试
MemLens是一个新的基准测试,通过多轮对话评估大规模视觉-语言模型的记忆能力。它比较了长上下文和记忆增强方法,揭示了二者的局限性,并推动了混合架构的发展。