αDepth:学习单次软边界分解用于立体转换
摘要
αDepth 引入了一种带有圆形Alpha表示(CAR)的分层表示,以解决立体转换中的软边界挑战,无需手动指导即可实现最先进的性能。
查看缓存全文
缓存时间: 2026/06/03 11:37
Paper page - αDepth: Learning Single-Pass Soft Boundary Decomposition for Stereo Conversion
来源:https://huggingface.co/papers/2606.00386
摘要
αDepth 提出了一种基于循环 Alpha 表示(Circular Alpha Representation,CAR)的分层表示,通过局部边界分解与高效场景级推理,解决了立体转换中的软边界挑战。
准确建模软边界(soft boundaries)(https://huggingface.co/papers?q=soft%20boundaries),如毛发和散焦模糊,是立体转换(stereo conversion)(https://huggingface.co/papers?q=stereo%20conversion)中的根本性难题,这是因为前景与背景的混合具有模糊性。现有深度模型主要预测单层深度,导致在软边界(soft boundaries)(https://huggingface.co/papers?q=soft%20boundaries)处深度对应关系模糊。抠图技术(matting techniques)(https://huggingface.co/papers?q=matting%20techniques)虽能捕获不透明度以进行分层建模,但在包含多个目标物的复杂场景中常表现不佳,且通常需要用户交互。本文介绍 αDepth,一种分层表示(layered representation)(https://huggingface.co/papers?q=layered%20representation),通过分解软边界(soft boundaries)(https://huggingface.co/papers?q=soft%20boundaries)来实现高保真立体转换(stereo conversion)(https://huggingface.co/papers?q=stereo%20conversion)。具体地,我们首先通过估计软边界(soft boundaries)(https://huggingface.co/papers?q=soft%20boundaries)处的分层颜色与深度值,解决混合颜色与深度的歧义。针对复杂多目标场景,我们设计了循环 Alpha 表示(Circular Alpha Representation,CAR)(https://huggingface.co/papers?q=Circular%20Alpha%20Representation),将范式从全局目标提取转向局部边界分解。与受限于单一前景/背景的既往抠图方法不同,CAR 无需人工引导即可实现高效的场景级推理(scene-level inference)(https://huggingface.co/papers?q=scene-level%20inference)。大量评估表明,αDepth 在立体转换(stereo conversion)(https://huggingface.co/papers?q=stereo%20conversion)中达到最先进性能,消除了软边界(soft boundaries)(https://huggingface.co/papers?q=soft%20boundaries)处的背景溢出(background bleeding)(https://huggingface.co/papers?q=background%20bleeding)与结构畸变(structural distortions)(https://huggingface.co/papers?q=structural%20distortions)。
查看 arXiv 页面(https://arxiv.org/abs/2606.00386) 查看 PDF(https://arxiv.org/pdf/2606.00386) 添加至收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.00386)
在您的 Agent 中获取本篇论文:
hf papers read 2606.00386
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本文的模型0
暂无模型链接本篇论文
请在模型 README.md 中引用 arxiv.org/abs/2606.00386 以从本页链接。
引用本文的数据集0
暂无数据集链接本篇论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.00386 以从本页链接。
引用本文的 Spaces0
暂无 Space 链接本篇论文
请在 Space README.md 中引用 arxiv.org/abs/2606.00386 以从本页链接。
包含本文的收藏集0
暂无收藏集包含本篇论文
请将本论文添加至收藏集(https://huggingface.co/new-collection)以从本页链接。
相似文章
@RuohanZhang76:很高兴介绍由 @EvansXuHan 主导的 StereoPolicy。StereoPolicy 是一种为现代机器人策略模型添加几何线索的有效方法……
介绍 StereoPolicy 框架,该框架利用同步立体图像对来提升机器人操作策略的几何推理能力,避免了 RGB-D 和点云的脆弱性。它可以集成到基于扩散和视觉-语言-行动的策略中,在仿真和现实任务中均展现出稳定的改进效果。
基于多视角基础模型的统一全景几何估计
PaGeR 适配了多视角透视基础模型 Depth Anything 3,利用固定的立方体贴图表示,从单张等距柱状投影图像中预测尺度不变深度、度量深度、表面法线和天空分割,同时保持 VRAM 和运行时间恒定。本文还发布了 ZüriPano 和 PanoInfinigen 数据集。
通过分解视觉代理的直接3D感知对象插入
本文介绍了DIRECT,一个用于姿态可控的3D感知对象插入的框架,它将条件分解为外观、几何和上下文引导,以实现具有显式3D姿态控制的高保真合成。
用于鲁棒多视图三维重建的几何感知表示去噪
提出GARD,一种基于扩散的框架,在前馈三维重建器的特征空间中操作,从退化输入中联合恢复场景几何和高质量图像。
TrackCraft3R: 改造视频扩散变换器用于密集3D追踪
TrackCraft3R 改造视频扩散变换器,用于从单目视频进行密集3D追踪。它采用双潜在表示和时间RoPE对齐,以比先前方法快1.3倍的速度和少4.6倍的峰值内存,实现了最先进的性能。