FlowR2A:学习奖励到动作分布的多模态驾驶规划
摘要
FlowR2A提出了一种新颖的方法,通过流匹配解码器将密集奖励监督与动态提议生成相结合,用于多模态驾驶规划,在NAVSIM基准测试上取得了最先进的结果。
查看缓存全文
缓存时间: 2026/06/24 05:46
论文页面 - FlowR2A:学习奖励到动作分布的端到端多模态驾驶规划
来源:https://huggingface.co/papers/2606.24231
摘要
FlowR2A通过结合密集奖励监督与动态提议生成来解决多模态驾驶规划中的张力问题,它采用了一个学习奖励条件动作分布的流匹配解码器。
多模态驾驶规划长期以来面临两种范式之间的张力:基于评分的方法受益于密集奖励监督,但受限于固定的动作词汇表;而基于锚点的方法虽然能动态生成提议,但受限于单一真实轨迹的稀疏监督。在这项工作中,我们提出FlowR2A,通过将基于模拟的奖励从判别目标重新框架为生成条件,从而解决了这一张力。通过使用流匹配解码器从密集轨迹-奖励对中学习奖励条件动作分布,FlowR2A将基于评分方法的密集监督与基于锚点方法的提议生成统一到单个生成模型中,迫使模型内化动作与其在安全性、进度、舒适性和规则遵守方面的结果之间的相关性。为了平衡硬性安全约束与软性进度目标,我们引入了细粒度的每时间步奖励条件设置和奖励噪声增强。生成式公式自然支持通过奖励引导和锚点采样进行可控的测试时采样,从而产生高质量的提议。FlowR2A在NAVSIM v1和v2基准测试上取得了最先进的结果,其多模态提议的质量显著优于先前方法。
查看 arXiv 页面 (https://arxiv.org/abs/2606.24231)查看 PDF (https://arxiv.org/pdf/2606.24231)项目页面 (https://lixirui142.github.io/flowr2a-ad/)GitHub2 (https://github.com/lixirui142/FlowR2A)加入收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.24231)
在您的智能体中获取此论文:
hf papers read 2606.24231
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
在模型的README.md中引用arxiv.org/abs/2606.24231以将其链接到此页面。
引用此论文的数据集0
没有数据集链接此论文
在数据集的README.md中引用arxiv.org/abs/2606.24231以将其链接到此页面。
引用此论文的Spaces0
没有Space链接此论文
在Space的README.md中引用arxiv.org/abs/2606.24231以将其链接到此页面。
包含此论文的收藏集0
没有包含此论文的收藏集
将此论文添加到收藏集 (https://huggingface.co/new-collection)以将其链接到此页面。
相似文章
ReflectDrive-2:面向离散扩散驾驶模型的强化学习对齐自编辑方法
ReflectDrive-2 是一款新型自动驾驶离散扩散规划器,通过强化学习实现轨迹 token 的自编辑,在 NAVSIM 基准测试中取得了高性能和低延迟。
RAD-2:在生成器-判别器框架中扩展强化学习
RAD-2 提出了一个用于自动驾驶的统一生成器-判别器框架,将基于扩散的轨迹生成与强化学习优化的重排序相结合,与基于扩散的规划器相比,碰撞率降低了56%。该方法引入了 Temporally Consistent Group Relative Policy Optimization 和 BEV-Warp 仿真环境等技术,以实现高效的大规模训练。
DeltaRubric:通过联合规划与验证实现生成式多模态奖励建模
DeltaRubric 是一篇研究论文,介绍了一种使用单一多模态大语言模型(MLLM)的两步多模态偏好评估方法,通过联合规划与验证来提高奖励建模的可靠性。
奖励始终存在于你的数据中:使用判别器引导的强化学习修正流匹配
本文提出判别器引导的强化学习(DRL),通过使用预训练表示空间中的判别器作为最优奖励信号,来修正分数匹配和流匹配模型中的对齐问题,无需人类偏好即可显著提升视觉保真度和语义质量。
探索Flow Matching中奖励反向传播的设计空间
FlowBP提出了一个统一的代理轨迹框架,通过奖励反向传播将流匹配模型与人类偏好对齐,减少了内存使用和梯度链式传递,同时在多个文本到图像模型上保持了性能。