FlowR2A：学习奖励到动作分布的多模态驾驶规划

Hugging Face Daily Papers 2026/06/23 00:00 论文

autonomous-driving driving-planning flow-matching reward-conditioned generative-model multimodal navsim

摘要

FlowR2A提出了一种新颖的方法，通过流匹配解码器将密集奖励监督与动态提议生成相结合，用于多模态驾驶规划，在NAVSIM基准测试上取得了最先进的结果。

多模态驾驶规划长期面临两种范式之间的紧张关系：基于评分的方法受益于密集奖励监督，但局限于固定的动作词汇表，而基于锚点的方法动态生成提议，但受到单一真实轨迹的稀疏监督约束。在这项工作中，我们提出了FlowR2A，通过将基于模拟的奖励从判别目标重新定义为生成条件，解决了这一矛盾。通过使用流匹配解码器从密集的轨迹-奖励对中学习奖励条件动作分布，FlowR2A在单一生成模型中统一了基于评分方法的密集监督和基于锚点方法的提议生成，迫使模型内化动作与其在安全性、进展、舒适度和规则遵守方面的结果之间的相关性。为了平衡严格的安全约束与柔和的进展目标，我们引入了细粒度的每时间步奖励条件和奖励噪声增强。这种生成公式自然地支持通过奖励引导和锚定采样进行可控的测试时采样，从而生成高质量的提议。FlowR2A在NAVSIM v1和v2基准测试上取得了最先进的结果，其多模态提议质量显著优于先前方法。

查看原文

查看缓存全文

缓存时间: 2026/06/24 05:46

论文页面 - FlowR2A：学习奖励到动作分布的端到端多模态驾驶规划

来源：https://huggingface.co/papers/2606.24231

摘要

FlowR2A通过结合密集奖励监督与动态提议生成来解决多模态驾驶规划中的张力问题，它采用了一个学习奖励条件动作分布的流匹配解码器。

多模态驾驶规划长期以来面临两种范式之间的张力：基于评分的方法受益于密集奖励监督，但受限于固定的动作词汇表；而基于锚点的方法虽然能动态生成提议，但受限于单一真实轨迹的稀疏监督。在这项工作中，我们提出FlowR2A，通过将基于模拟的奖励从判别目标重新框架为生成条件，从而解决了这一张力。通过使用流匹配解码器从密集轨迹-奖励对中学习奖励条件动作分布，FlowR2A将基于评分方法的密集监督与基于锚点方法的提议生成统一到单个生成模型中，迫使模型内化动作与其在安全性、进度、舒适性和规则遵守方面的结果之间的相关性。为了平衡硬性安全约束与软性进度目标，我们引入了细粒度的每时间步奖励条件设置和奖励噪声增强。生成式公式自然支持通过奖励引导和锚点采样进行可控的测试时采样，从而产生高质量的提议。FlowR2A在NAVSIM v1和v2基准测试上取得了最先进的结果，其多模态提议的质量显著优于先前方法。

查看 arXiv 页面 (https://arxiv.org/abs/2606.24231)查看 PDF (https://arxiv.org/pdf/2606.24231)项目页面 (https://lixirui142.github.io/flowr2a-ad/)GitHub2 (https://github.com/lixirui142/FlowR2A)加入收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.24231)

在您的智能体中获取此论文：

hf papers read 2606.24231

没有最新的CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型的README.md中引用arxiv.org/abs/2606.24231以将其链接到此页面。

引用此论文的数据集0

没有数据集链接此论文

在数据集的README.md中引用arxiv.org/abs/2606.24231以将其链接到此页面。

引用此论文的Spaces0

没有Space链接此论文

在Space的README.md中引用arxiv.org/abs/2606.24231以将其链接到此页面。

包含此论文的收藏集0

没有包含此论文的收藏集

将此论文添加到收藏集 (https://huggingface.co/new-collection)以将其链接到此页面。

FlowR2A：学习奖励到动作分布的多模态驾驶规划

论文页面 - FlowR2A：学习奖励到动作分布的端到端多模态驾驶规划

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Spaces0

包含此论文的收藏集0

相似文章

ReflectDrive-2：面向离散扩散驾驶模型的强化学习对齐自编辑方法

RAD-2：在生成器-判别器框架中扩展强化学习

DeltaRubric：通过联合规划与验证实现生成式多模态奖励建模

奖励始终存在于你的数据中：使用判别器引导的强化学习修正流匹配

探索Flow Matching中奖励反向传播的设计空间

提交意见反馈