FlowR2A:学习奖励到动作分布的多模态驾驶规划

Hugging Face Daily Papers 论文

摘要

FlowR2A提出了一种新颖的方法,通过流匹配解码器将密集奖励监督与动态提议生成相结合,用于多模态驾驶规划,在NAVSIM基准测试上取得了最先进的结果。

多模态驾驶规划长期面临两种范式之间的紧张关系:基于评分的方法受益于密集奖励监督,但局限于固定的动作词汇表,而基于锚点的方法动态生成提议,但受到单一真实轨迹的稀疏监督约束。在这项工作中,我们提出了FlowR2A,通过将基于模拟的奖励从判别目标重新定义为生成条件,解决了这一矛盾。通过使用流匹配解码器从密集的轨迹-奖励对中学习奖励条件动作分布,FlowR2A在单一生成模型中统一了基于评分方法的密集监督和基于锚点方法的提议生成,迫使模型内化动作与其在安全性、进展、舒适度和规则遵守方面的结果之间的相关性。为了平衡严格的安全约束与柔和的进展目标,我们引入了细粒度的每时间步奖励条件和奖励噪声增强。这种生成公式自然地支持通过奖励引导和锚定采样进行可控的测试时采样,从而生成高质量的提议。FlowR2A在NAVSIM v1和v2基准测试上取得了最先进的结果,其多模态提议质量显著优于先前方法。
查看原文
查看缓存全文

缓存时间: 2026/06/24 05:46

论文页面 - FlowR2A:学习奖励到动作分布的端到端多模态驾驶规划

来源:https://huggingface.co/papers/2606.24231

摘要

FlowR2A通过结合密集奖励监督与动态提议生成来解决多模态驾驶规划中的张力问题,它采用了一个学习奖励条件动作分布的流匹配解码器。

多模态驾驶规划长期以来面临两种范式之间的张力:基于评分的方法受益于密集奖励监督,但受限于固定的动作词汇表;而基于锚点的方法虽然能动态生成提议,但受限于单一真实轨迹的稀疏监督。在这项工作中,我们提出FlowR2A,通过将基于模拟的奖励从判别目标重新框架为生成条件,从而解决了这一张力。通过使用流匹配解码器从密集轨迹-奖励对中学习奖励条件动作分布,FlowR2A将基于评分方法的密集监督与基于锚点方法的提议生成统一到单个生成模型中,迫使模型内化动作与其在安全性、进度、舒适性和规则遵守方面的结果之间的相关性。为了平衡硬性安全约束与软性进度目标,我们引入了细粒度的每时间步奖励条件设置和奖励噪声增强。生成式公式自然支持通过奖励引导和锚点采样进行可控的测试时采样,从而产生高质量的提议。FlowR2A在NAVSIM v1和v2基准测试上取得了最先进的结果,其多模态提议的质量显著优于先前方法。

查看 arXiv 页面 (https://arxiv.org/abs/2606.24231)查看 PDF (https://arxiv.org/pdf/2606.24231)项目页面 (https://lixirui142.github.io/flowr2a-ad/)GitHub2 (https://github.com/lixirui142/FlowR2A)加入收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.24231)

在您的智能体中获取此论文:

hf papers read 2606.24231

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型的README.md中引用arxiv.org/abs/2606.24231以将其链接到此页面。

引用此论文的数据集0

没有数据集链接此论文

在数据集的README.md中引用arxiv.org/abs/2606.24231以将其链接到此页面。

引用此论文的Spaces0

没有Space链接此论文

在Space的README.md中引用arxiv.org/abs/2606.24231以将其链接到此页面。

包含此论文的收藏集0

没有包含此论文的收藏集

将此论文添加到收藏集 (https://huggingface.co/new-collection)以将其链接到此页面。

相似文章

RAD-2:在生成器-判别器框架中扩展强化学习

Hugging Face Daily Papers

RAD-2 提出了一个用于自动驾驶的统一生成器-判别器框架,将基于扩散的轨迹生成与强化学习优化的重排序相结合,与基于扩散的规划器相比,碰撞率降低了56%。该方法引入了 Temporally Consistent Group Relative Policy Optimization 和 BEV-Warp 仿真环境等技术,以实现高效的大规模训练。

探索Flow Matching中奖励反向传播的设计空间

Hugging Face Daily Papers

FlowBP提出了一个统一的代理轨迹框架,通过奖励反向传播将流匹配模型与人类偏好对齐,减少了内存使用和梯度链式传递,同时在多个文本到图像模型上保持了性能。