基于强化学习引导的软融合检索方法,用于缺失模态下的鲁棒多模态模仿学习

Hugging Face Daily Papers 论文

摘要

RL4IL 提出了一种强化学习引导的检索方法,利用对冻结演示库的软融合来处理推理时机器人模仿学习中的传感器模态缺失问题,在完全摄像头丢失的情况下实现了高成功率。

机器人系统通过多种输入模态感知世界——包括视觉摄像头流和自然语言指令——并必须根据这些信号选择合适的动作。然而,假设所有输入设备永久可用是不现实的,因为在部署过程中传感器可能发生故障、被遮挡或完全丢失。因此,鲁棒处理此类缺失模态场景对于真实世界的机器人操作至关重要。本文介绍了 RL4IL,一种强化学习引导的模仿学习方法,通过从训练库中识别最相关的专家演示,为给定观测选择最合适的动作。一个通过广度优先搜索候选集上的近端策略优化训练的强化学习策略对候选演示进行排序,并通过软交叉注意力融合头聚合其动作信号以生成最终预测。当推理时出现模态缺失,一个专门的每模态强化学习检索策略从训练库中识别捐赠演示,并通过一个软插补头对排名靠前的捐赠者进行交叉注意力来重建缺失的嵌入——无需对系统进行任何重新训练。在三个 LIBERO 基准套件上的实验表明,RL4IL 在传感器丢失条件下的性能远超最先进的模仿学习方法,且无需进行策略网络训练。代码可在 https://github.com/h-ismkhan/Reinforcement-Learning-via-kNN-for-Robotic-Learning-with-Missing-Camera 获取。
查看原文
查看缓存全文

缓存时间: 2026/06/18 19:58

论文页面 - 强化学习引导的软融合检索:面向缺失模态的鲁棒多模态模仿学习

来源:https://huggingface.co/papers/2606.15514

RL4IL 解决了一个在模仿学习中真实存在但尚未充分探索的问题:部署时传感器失效怎么办?大多数 IL 方法都默默假设所有模态始终可用,这对于真实的机器人部署来说是不现实的。我们的核心见解是:与其针对每一种可能的模态缺失模式重新训练策略,不如利用一个经过学习的 RL 排序策略,从冻结的演示库中检索出正确的行为。以下是一些可能引起社区兴趣的亮点:

  • PPO 策略在 BFS 增强的候选集上运行,相比于普通的 kNN,它提供了更丰富、标签更多样化的候选池
  • 对前 K 个候选进行软交叉注意力融合,在性能上始终优于硬 argmax 选择,尤其是在存在噪声检索的情况下
  • 推理时零样本处理缺失模态——当某个摄像头失效时,无需重新训练
  • 在 LIBERO 基准测试中,RL4IL 在摄像头完全缺失的情况下达到了 0.733 的成功率,而先前最强的方法 (DisDP) 仅达到 0.295

欢迎与对鲁棒机器人学习感兴趣的朋友讨论检索设计、插补管道或 LIBERO 实验设置。

相似文章

当RL在SFT后失效:恢复模型可塑性以实现稳健的SFT到RL交接

arXiv cs.LG

本文研究了在大型语言模型的先SFT后RL流程中,过度监督微调(SFT)后模型可塑性的丧失问题,并提出了一种名为Rejuvenation的方法,该方法通过基于基线的模型融合和定向神经元重置来恢复可塑性,从而持续提升RL性能。