PoLAR: 因子化潜动作中的范围与模式以用于机器人策略学习
摘要
PoLAR 在双曲空间中引入了一种具有几何结构的潜动作表示,将转换范围与模式分离,从而提升机器人策略学习性能。
查看缓存全文
缓存时间: 2026/06/23 05:40
论文页面 - PoLAR:将潜在动作中的变化程度与变化模式分离以进行机器人策略学习
来源:https://huggingface.co/papers/2606.21139
摘要
PoLAR 在双曲空间中引入了一种几何结构化的潜在动作表示,将过渡变化程度与过渡变化模式分离,从而提升机器人策略学习性能。
潜在动作预训练(https://huggingface.co/papers?q=Latent%20action%20pretraining)通过观察对学习视觉变化的表示,但现有方法通常将每次过渡编码为一个单一的非结构化表示,该表示纠缠了过渡变化程度(https://huggingface.co/papers?q=transition%20extent)和过渡变化模式(https://huggingface.co/papers?q=transition%20mode)。我们引入了具有径向结构(https://huggingface.co/papers?q=Radial%20structure)的极坐标潜在动作(https://huggingface.co/papers?q=Polar%20Latent%20Actions)(PoLAR),它对潜在动作施加了径向-方向结构,促使半径编码过渡变化程度(https://huggingface.co/papers?q=transition%20extent),而方向保留过渡变化模式(https://huggingface.co/papers?q=transition%20mode)。PoLAR 利用两个观测之间的时间偏移(https://huggingface.co/papers?q=temporal%20offset)作为过渡变化程度(https://huggingface.co/papers?q=transition%20extent)的弱代理,使时间间隔更大的观测对对应的潜在动作占据更大的半径。我们在双曲空间(https://huggingface.co/papers?q=hyperbolic%20space)中实例化该结构,其半径随距离增大而扩展的体积为更大变化程度下的更多样化过渡变化模式(https://huggingface.co/papers?q=transition%20mode)提供了自然适配。在任务内和大规模预训练设置中,PoLAR 在仿真和真实机器人实验中提升了下游策略性能(https://huggingface.co/papers?q=downstream%20policy%20performance),优于潜在动作基线和强大的预训练 VLA。这些结果表明,潜在动作空间的几何结构是将视觉预训练(https://huggingface.co/papers?q=visual%20pretraining)迁移到下游机器人策略学习的一个重要设计选择。
查看 arXiv 页面(https://arxiv.org/abs/2606.21139)查看 PDF(https://arxiv.org/pdf/2606.21139)项目页面(https://joon-stack.github.io/PoLAR)GitHub0(https://github.com/joon-stack/PoLAR)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.21139)
在您的中使用此论文:
hf papers read 2606\.21139
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接到此论文
在模型 README.md 中引用 arxiv.org/abs/2606.21139 即可从本页链接到该模型。
引用此论文的数据集0
没有数据集链接到此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.21139 即可从本页链接到该数据集。
引用此论文的 Spaces0
没有 Space 链接到此论文
在 Space README.md 中引用 arxiv.org/abs/2606.21139 即可从本页链接到该 Space。
包含此论文的收藏0
没有收藏包含此论文
将此论文添加到收藏(https://huggingface.co/new-collection)即可从本页链接到该收藏。
相似文章
@HuggingPapers:用于机器人策略学习的几何动作模型,复用几何基础模型作为感知的骨干网络…
几何动作模型将几何基础模型用于机器人策略学习,在LIBERO-Plus上达到85.5%的准确率,推理仅需6.9毫秒,比基线模型快55倍。
LaWAM:面向高效动力学感知机器人策略的潜在世界动作模型
LaWAM通过预测紧凑的潜在视觉子目标而非昂贵的视频生成,实现了高效的机器人控制,相比像素空间世界动作模型,成功率可达最先进水平,同时延迟降低高达24倍。
LambdaPO: 面向推理语言模型的Lambda风格策略优化
引入LambdaPO,一种新颖的强化学习框架,它通过将优势估计分解为成对偏好比较并添加语义密度奖励来改进GRPO,从而在数学推理任务上取得了更好的性能。
Geometric Action Model 用于机器人策略学习
Geometric Action Model (GAM) 将预训练的几何基础模型 (GFM) 重新用作语言条件机器人操作的统一骨干,在模拟和真实世界基准测试中,相比现有的基础模型规模基线,实现了更高的准确性、鲁棒性和效率。
面向多模态推理的结构化角色感知策略优化
本文介绍了结构化角色感知策略优化(SRPO),该方法通过在大视觉-语言模型的强化学习框架内,根据感知和推理的不同角色分配令牌级信用,从而提升多模态推理能力。