基于强化学习引导的软融合检索方法,用于缺失模态下的鲁棒多模态模仿学习
摘要
RL4IL 提出了一种强化学习引导的检索方法,利用对冻结演示库的软融合来处理推理时机器人模仿学习中的传感器模态缺失问题,在完全摄像头丢失的情况下实现了高成功率。
查看缓存全文
缓存时间: 2026/06/18 19:58
论文页面 - 强化学习引导的软融合检索:面向缺失模态的鲁棒多模态模仿学习
来源:https://huggingface.co/papers/2606.15514
RL4IL 解决了一个在模仿学习中真实存在但尚未充分探索的问题:部署时传感器失效怎么办?大多数 IL 方法都默默假设所有模态始终可用,这对于真实的机器人部署来说是不现实的。我们的核心见解是:与其针对每一种可能的模态缺失模式重新训练策略,不如利用一个经过学习的 RL 排序策略,从冻结的演示库中检索出正确的行为。以下是一些可能引起社区兴趣的亮点:
- PPO 策略在 BFS 增强的候选集上运行,相比于普通的 kNN,它提供了更丰富、标签更多样化的候选池
- 对前 K 个候选进行软交叉注意力融合,在性能上始终优于硬 argmax 选择,尤其是在存在噪声检索的情况下
- 推理时零样本处理缺失模态——当某个摄像头失效时,无需重新训练
- 在 LIBERO 基准测试中,RL4IL 在摄像头完全缺失的情况下达到了 0.733 的成功率,而先前最强的方法 (DisDP) 仅达到 0.295
欢迎与对鲁棒机器人学习感兴趣的朋友讨论检索设计、插补管道或 LIBERO 实验设置。
相似文章
CL-DMDF:基于对比学习的动态多模态数据融合模型
本文提出了CL-DMDF,一种基于对比学习和双维度注意力机制的动态多模态数据融合模型,用于处理缺失模态并提升判别学习能力。
当RL在SFT后失效:恢复模型可塑性以实现稳健的SFT到RL交接
本文研究了在大型语言模型的先SFT后RL流程中,过度监督微调(SFT)后模型可塑性的丧失问题,并提出了一种名为Rejuvenation的方法,该方法通过基于基线的模型融合和定向神经元重置来恢复可塑性,从而持续提升RL性能。
FusionSense: 三阶段近传感器学习实现运行时自适应多模态边缘智能
FusionSense提出了一种面向多模态边缘智能的三阶段近传感器学习框架,通过融合感知滤波同时降低计算与通信开销,在RGB-深度/激光雷达任务上实现高达33倍的能耗节省和显著的数据缩减收益。
Robust-U1:多模态大语言模型能否自我修复受损视觉内容以实现鲁棒理解?
Robust-U1 是一个框架,通过监督微调、双奖励强化学习和联合多模态推理,使多模态大语言模型能够自我修复受损的视觉内容,在鲁棒性基准测试上达到了最先进水平。
HyperEyes:面向并行多模态搜索代理的双粒度效率感知强化学习
HyperEyes 是一种并行多模态搜索代理,它利用双粒度强化学习来优化推理效率,与现有代理相比,在显著减少工具调用轮次的同时实现了更高的准确率。