Lite Any Stereo V2:更快更强的高效零样本立体匹配
摘要
Lite Any Stereo V2 提出了一种高效的立体匹配方法,通过优化的架构和训练策略(包括仅2D成本聚合框架和三阶段训练策略),在显著降低延迟的同时实现了最先进的精度。
查看缓存全文
缓存时间: 2026/06/25 17:13
论文页面 - Lite Any Stereo V2:更快更强的零样本立体匹配方法
来源:https://huggingface.co/papers/2606.24457
摘要
Lite Any Stereo V2 (LAS2) 提出了一种高效的立体匹配方法,通过优化架构和训练策略,在显著降低延迟的同时实现了最先进的精度。
近年来,立体匹配领域(https://huggingface.co/papers?q=stereo%20matching)取得了显著的精度提升,但通常依赖大型模型、大量计算或额外的基础模型先验知识,使其难以部署在资源受限的平台。相比之下,高效立体模型(https://huggingface.co/papers?q=efficient%20stereo%20models)虽然推理速度更快,但通常被认为在零样本泛化(https://huggingface.co/papers?q=zero-shot%20generalization)方面能力较弱。本文通过引入 Lite Any Stereo V2 (LAS2) 挑战了这一假设。LAS2 是一个超快速模型系列,专为零样本立体匹配(https://huggingface.co/papers?q=stereo%20matching)效率优化而设计。LAS2 从架构和训练两个角度进行了开发:架构方面,我们重新审视了实用部署场景下的高效立体设计,提出了一个纯 2D 代价聚合框架(https://huggingface.co/papers?q=cost%20aggregation%20framework),针对实际推理延迟而非理论 MACs 进行了优化;训练方面,我们设计了包含合成监督(https://huggingface.co/papers?q=synthetic%20supervision)、自蒸馏(https://huggingface.co/papers?q=self-distillation)和真实世界知识蒸馏(https://huggingface.co/papers?q=knowledge%20distillation)的三阶段训练策略。为了提升真实世界伪监督的可靠性,我们还引入了伪标签过滤(https://huggingface.co/papers?q=pseudo-label%20filtering)和误差裁剪(https://huggingface.co/papers?q=error-clamping)操作,实现了更平滑的合成到真实迁移。我们将 LAS2 实例化为一个模型系列,包括针对不同效率预算的前馈变体(https://huggingface.co/papers?q=feed-forward%20variants)以及追求更高精度的迭代变体(https://huggingface.co/papers?q=iterative%20variant)。大量实验表明,LAS2 在保持显著更低延迟的同时,在高效立体方法中实现了最先进的精度。具体来说,LAS2-H 在零样本性能上整体优于迭代方法 Fast-FoundationStereo,在 H200 和 Orin 上的推理速度分别快 1.8 倍和 2.7 倍。项目页面、演示和代码详见:https://tomtomtommi.github.io/LiteAnyStereoV2/。
查看 arXiv 页面(https://arxiv.org/abs/2606.24457)| 查看 PDF(https://arxiv.org/pdf/2606.24457)| 项目页面(https://tomtomtommi.github.io/LiteAnyStereoV2/)| GitHub99(https://github.com/TomTomTommi/LiteAnyStereo)| 添加至收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.24457)
在您的智能体中获取本文:
hf papers read 2606.24457
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本文的模型 0
暂无模型关联本文
请在模型 README.md 中引用 arxiv.org/abs/2606.24457,即可与本页面建立链接。
引用本文的数据集 0
暂无数据集关联本文
请在数据集 README.md 中引用 arxiv.org/abs/2606.24457,即可与本页面建立链接。
引用本文的 Space 0
暂无 Space 关联本文
请在 Space README.md 中引用 arxiv.org/abs/2606.24457,即可与本页面建立链接。
包含本文的收藏集 0
暂无包含本文的收藏集
将本文添加至收藏集(https://huggingface.co/new-collection)即可与本页面建立链接。
相似文章
AnySimLite: 一种轻量级少样本相似度编码器用于设备端语音相关分类
介绍 AnySimLite,一种用于设备端语音相关分类任务的轻量级相似度编码器,在模型大小不到 qLLaMA-LoRA-7B 基线的 1/250 的情况下,实现了最先进或具有竞争力的性能。
Lite3R:一种高效的模型无关前馈3D重建框架
Lite3R 是一个模型无关框架,通过稀疏线性注意力和 FP8 感知量化,提升了基于 Transformer 的 3D 重建效率。在保持 VGGT 和 DA3-Large 等主干网络几何精度的同时,它将延迟和内存占用降低了高达 2.4 倍。
LiteFrame: 高效视觉编码器解锁视频大语言模型的帧缩放
LiteFrame提出了一种轻量级视频编码器,采用压缩令牌蒸馏(Compressed Token Distillation)训练,可降低延迟,并使视频大语言模型能够处理8倍以上的帧数以实现长视频理解,在降低计算量的同时提高准确性。
LiteFrame 扩展视频大语言模型效率(6分钟阅读)
LiteFrame 为视频大语言模型引入了一种高效的视频编码器,采用压缩令牌蒸馏技术,在保持准确率的同时,能够处理多达8倍的帧数并降低35%的延迟,为长视频理解开创了新的帕累托前沿。
αDepth:学习单次软边界分解用于立体转换
αDepth 引入了一种带有圆形Alpha表示(CAR)的分层表示,以解决立体转换中的软边界挑战,无需手动指导即可实现最先进的性能。