EgoForce: 前臂引导的相机空间3D手部姿态——来自单目第一人称相机
摘要
EgoForce是一个单目3D手部重建框架,使用统一网络,包含可微分前臂表示、手臂-手部变换器和射线空间求解器,能够在不同相机模型下恢复绝对手部姿态和位置,在多个第一人称基准测试中达到了最先进的精度。
查看缓存全文
缓存时间: 2026/05/13 20:14
论文页面 - EgoForce:基于前臂引导的单目自拍视角相机空间3D手部姿态
来源:https://huggingface.co/papers/2605.12498
摘要
EgoForce 是一个单目 3D 手部重建框架,它通过一个统一的网络,利用可微分的前臂表示、手臂-手部变换器和射线空间求解器,在不同相机模型下恢复鲁棒的、绝对的手部姿态和位置。
使用单个头戴式相机从用户视角重建手部的绝对 3D 姿态和形状,对于 AR/VR、远程呈现以及以手部为中心的操控任务等实际自拍交互至关重要,这些场景要求传感设备保持紧凑且不引人注目。尽管单目 RGB 方法已取得进展,但它们仍受限于深度-尺度歧义(https://huggingface.co/papers?q=depth-scale%20ambiguity),并且难以泛化到头戴式设备的多种光学配置。因此,模型通常需要在特定设备的数据集上进行大量训练,而这些数据集的获取成本高昂且劳动密集。本文通过引入 EgoForce 来解决这些挑战,这是一种单目 3D 手部重建(https://huggingface.co/papers?q=monocular%203D%20hand%20reconstruction)框架,能够从用户(相机空间)视角恢复鲁棒的、绝对的 3D 手部姿态及其位置。EgoForce 使用单个统一网络,可在鱼眼、透视和畸变宽视场相机模型(https://huggingface.co/papers?q=distorted%20wide-FOV%20camera%20model)上运行。我们的方法结合了可微分的前臂表示(https://huggingface.co/papers?q=differentiable%20forearm%20representation)来稳定手部姿态,一个统一的手臂-手部变换器(https://huggingface.co/papers?q=arm-hand%20transformer)从单张自拍视图中同时预测手部和前臂几何形状,从而缓解深度-尺度歧义(https://huggingface.co/papers?q=depth-scale%20ambiguity),以及一个射线空间闭式求解器(https://huggingface.co/papers?q=ray%20space%20closed-form%20solver),能够在各种头戴式相机模型下实现绝对 3D 姿态恢复。在三个自拍基准上的实验表明,EgoForce 达到了最先进的 3D 精度,与先前方法相比,在 HOT3D 数据集上相机空间 MPJPE 降低了高达 28%,并在不同相机配置下保持一致的性能。更多详情,请访问项目页面:https://dfki-av.github.io/EgoForce/。
查看 arXiv 页面(https://arxiv.org/abs/2605.12498)查看 PDF(https://arxiv.org/pdf/2605.12498)项目页面(https://dfki-av.github.io/EgoForce/)GitHub(https://github.com/dfki-av/EgoForce)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.12498)
在您的代理中获取此论文:
hf papers read 2605.12498
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.12498,即可从此页面链接。
引用此论文的数据集1
chris10/EgoForce 更新于 23 分钟前 • 11.4k (https://huggingface.co/datasets/chris10/EgoForce)
引用此论文的 Spaces1
包含此论文的收藏0
没有包含此论文的收藏
将本论文添加到收藏(https://huggingface.co/new-collection)中,即可从此页面链接。
相似文章
MoCapAnything V2: 面向任意骨骼的端到端动作捕捉
MoCapAnything V2 提出了一种面向任意骨骼单目视频动作捕捉的完全端到端框架,通过联合优化视频到姿态以及姿态到旋转的预测,解决旋转歧义性问题。
FaithfulFaces:用于文本到视频生成的姿态保真面部身份保留
FaithfulFaces 是一种新的文本到视频生成框架,通过姿态共享对齐和欧拉角嵌入,在姿态变化和遮挡情况下保持面部身份的一致性。
DeVI:基于物理的灵巧人-物交互,通过合成视频模仿实现
DeVI 提出一种框架,借助混合 3D-2D 跟踪奖励,将文本驱动的合成视频转化为具备物理可信度的灵巧机器人控制,实现对未见物体的零样本泛化。
Lite3R:一种高效的模型无关前馈3D重建框架
Lite3R 是一个模型无关框架,通过稀疏线性注意力和 FP8 感知量化,提升了基于 Transformer 的 3D 重建效率。在保持 VGGT 和 DA3-Large 等主干网络几何精度的同时,它将延迟和内存占用降低了高达 2.4 倍。
参数高效的多视角熟练度评估:从判别式分类到生成式反馈
本文针对 Ego-Exo4D 数据集提出了三种参数高效的多视角熟练度评估方法,实现了从判别式分类到生成式反馈的转变。与基于视频 Transformer 的基线模型相比,所提出的模型在参数量和训练轮次大幅减少的同时,取得了最先进的准确率。