RAD-2:在生成器-判别器框架中扩展强化学习

Hugging Face Daily Papers 论文

摘要

RAD-2 提出了一个用于自动驾驶的统一生成器-判别器框架,将基于扩散的轨迹生成与强化学习优化的重排序相结合,与基于扩散的规划器相比,碰撞率降低了56%。该方法引入了 Temporally Consistent Group Relative Policy Optimization 和 BEV-Warp 仿真环境等技术,以实现高效的大规模训练。

高级自动驾驶需要运动规划器能够建模多模态未来不确定性,同时在闭环交互中保持鲁棒性。尽管基于扩散的规划器在建模复杂轨迹分布方面效果显著,但仅通过模仿学习训练时,通常会遇到随机不稳定性以及缺乏纠正性负面反馈的问题。为解决这些问题,我们提出了 RAD-2,一个用于闭环规划的统一生成器-判别器框架。具体而言,使用基于扩散的生成器生成多样化的轨迹候选,而通过强化学习优化的判别器则根据其长期驾驶质量对这些候选进行重排序。这种解耦设计避免将稀疏标量奖励直接应用于整个高维轨迹空间,从而提高了优化稳定性。为进一步增强强化学习,我们引入了 Temporally Consistent Group Relative Policy Optimization,利用时间一致性来缓解信用分配问题。此外,我们提出了 On-policy Generator Optimization,将闭环反馈转化为结构化的纵向优化信号,并逐步将生成器推向高奖励轨迹流形。为了支持高效的大规模训练,我们引入了 BEV-Warp,一个高吞吐量仿真环境,通过空间扭曲直接在鸟瞰图特征空间中进行闭环评估。与强大的基于扩散的规划器相比,RAD-2 将碰撞率降低了 56%。在复杂城市交通中的实际部署进一步证明了感知安全性和驾驶平稳性的提升。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:28

论文页面 - RAD-2:在生成器-判别器框架中扩展强化学习

来源:https://huggingface.co/papers/2604.15308

摘要

一种用于自动驾驶运动规划的统—生成器-判别器框架,通过基于扩散的轨迹生成与强化学习优化,提升稳定性与性能。

高阶自动驾驶需要运动规划器能够建模多模态未来不确定性,并在闭环交互中保持鲁棒性。尽管基于扩散的规划器(https://huggingface.co/papers?q=diffusion-based%20planners)能有效建模复杂轨迹分布,但仅通过模仿学习(https://huggingface.co/papers?q=imitation%20learning)训练时,常出现随机不稳定性且缺乏修正性负反馈。为解决这些问题,我们提出RAD-2——一个用于闭环规划(https://huggingface.co/papers?q=closed-loop%20planning)的统一生成器-判别器框架(https://huggingface.co/papers?q=generator-discriminator%20framework)。具体地,基于扩散的生成器用于生成多样化的轨迹候选(https://huggingface.co/papers?q=trajectory%20candidates),而由强化学习优化的判别器则根据其长期驾驶质量对这些候选进行重新排序。这种解耦设计避免了将稀疏标量奖励直接应用于完整的高维轨迹空间,从而提高了优化稳定性。为进一步增强强化学习(https://huggingface.co/papers?q=reinforcement%20learning),我们引入了时间一致组相对策略优化(https://huggingface.co/papers?q=Policy%20Optimization),利用时间一致性缓解信用分配问题。此外,我们提出在线策略生成器优化,将闭环反馈转化为结构化的纵向优化信号,并逐步将生成器推向高奖励轨迹流形。为支持高效的大规模训练,我们引入了BEV-Warp——一种高吞吐量仿真环境,通过空间扭曲(https://huggingface.co/papers?q=spatial%20warping)直接在鸟瞰图(https://huggingface.co/papers?q=Bird%27s-Eye%20View)特征空间中进行闭环评估。与强基线基于扩散的规划器(https://huggingface.co/papers?q=diffusion-based%20planners)相比,RAD-2将碰撞率降低了56%。实际部署进一步证明了在复杂城市交通中感知安全性与驾驶平顺性的提升。

查看arXiv页面(https://arxiv.org/abs/2604.15308)查看PDF(https://arxiv.org/pdf/2604.15308)项目页面(https://hgao-cv.github.io/RAD-2/)GitHub207(https://github.com/hustvl/RAD)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.15308)

在你的智能体中获取此论文:

hf papers read 2604.15308

没有最新的CLI?curl \-LsSf https://hf.co/cli/install.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型README.md中引用arxiv.org/abs/2604.15308以将其链接至此页面。

引用此论文的数据集0

没有数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2604.15308以将其链接至此页面。

引用此论文的Space0

没有Space链接此论文

在Space README.md中引用arxiv.org/abs/2604.15308以将其链接至此页面。

包含此论文的收藏1

相似文章

通过扩散策略优化扩展世界模型强化学习

arXiv cs.LG

提出模型基扩散策略优化(MBDPO)框架,该框架通过扩散策略表示统一了世界模型中的搜索与策略优化,在离线与在线强化学习任务中实现一致的扩展行为和卓越性能。

通过奖励倾斜分布匹配强化少步生成器

Hugging Face Daily Papers

RTDMD是一个两阶段框架,结合分布匹配蒸馏与奖励引导的强化学习,以改进少步图像生成与人类偏好的一致性。它在仅需4步推理的情况下,在多个模型上取得了最先进的结果。