RAD-2:在生成器-判别器框架中扩展强化学习
摘要
RAD-2 提出了一个用于自动驾驶的统一生成器-判别器框架,将基于扩散的轨迹生成与强化学习优化的重排序相结合,与基于扩散的规划器相比,碰撞率降低了56%。该方法引入了 Temporally Consistent Group Relative Policy Optimization 和 BEV-Warp 仿真环境等技术,以实现高效的大规模训练。
查看缓存全文
缓存时间: 2026/04/20 08:28
论文页面 - RAD-2:在生成器-判别器框架中扩展强化学习
来源:https://huggingface.co/papers/2604.15308
摘要
一种用于自动驾驶运动规划的统—生成器-判别器框架,通过基于扩散的轨迹生成与强化学习优化,提升稳定性与性能。
高阶自动驾驶需要运动规划器能够建模多模态未来不确定性,并在闭环交互中保持鲁棒性。尽管基于扩散的规划器(https://huggingface.co/papers?q=diffusion-based%20planners)能有效建模复杂轨迹分布,但仅通过模仿学习(https://huggingface.co/papers?q=imitation%20learning)训练时,常出现随机不稳定性且缺乏修正性负反馈。为解决这些问题,我们提出RAD-2——一个用于闭环规划(https://huggingface.co/papers?q=closed-loop%20planning)的统一生成器-判别器框架(https://huggingface.co/papers?q=generator-discriminator%20framework)。具体地,基于扩散的生成器用于生成多样化的轨迹候选(https://huggingface.co/papers?q=trajectory%20candidates),而由强化学习优化的判别器则根据其长期驾驶质量对这些候选进行重新排序。这种解耦设计避免了将稀疏标量奖励直接应用于完整的高维轨迹空间,从而提高了优化稳定性。为进一步增强强化学习(https://huggingface.co/papers?q=reinforcement%20learning),我们引入了时间一致组相对策略优化(https://huggingface.co/papers?q=Policy%20Optimization),利用时间一致性缓解信用分配问题。此外,我们提出在线策略生成器优化,将闭环反馈转化为结构化的纵向优化信号,并逐步将生成器推向高奖励轨迹流形。为支持高效的大规模训练,我们引入了BEV-Warp——一种高吞吐量仿真环境,通过空间扭曲(https://huggingface.co/papers?q=spatial%20warping)直接在鸟瞰图(https://huggingface.co/papers?q=Bird%27s-Eye%20View)特征空间中进行闭环评估。与强基线基于扩散的规划器(https://huggingface.co/papers?q=diffusion-based%20planners)相比,RAD-2将碰撞率降低了56%。实际部署进一步证明了在复杂城市交通中感知安全性与驾驶平顺性的提升。
查看arXiv页面(https://arxiv.org/abs/2604.15308)查看PDF(https://arxiv.org/pdf/2604.15308)项目页面(https://hgao-cv.github.io/RAD-2/)GitHub207(https://github.com/hustvl/RAD)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.15308)
在你的智能体中获取此论文:
hf papers read 2604.15308
没有最新的CLI?curl \-LsSf https://hf.co/cli/install.sh \| bash
引用此论文的模型0
没有模型链接此论文
在模型README.md中引用arxiv.org/abs/2604.15308以将其链接至此页面。
引用此论文的数据集0
没有数据集链接此论文
在数据集README.md中引用arxiv.org/abs/2604.15308以将其链接至此页面。
引用此论文的Space0
没有Space链接此论文
在Space README.md中引用arxiv.org/abs/2604.15308以将其链接至此页面。
包含此论文的收藏1
相似文章
ReflectDrive-2:面向离散扩散驾驶模型的强化学习对齐自编辑方法
ReflectDrive-2 是一款新型自动驾驶离散扩散规划器,通过强化学习实现轨迹 token 的自编辑,在 NAVSIM 基准测试中取得了高性能和低延迟。
面向行人行为不确定性的安全自动驾驶的多智能体强化学习
本文提出了一种多智能体强化学习框架,该框架同时训练自动驾驶车辆和具有个性驱动乱穿马路行为的行人,与单智能体方法相比,碰撞率降低了30%,并展示了更真实的交互场景。
UDM-GRPO:面向均匀离散扩散模型的稳定高效群体相对策略优化
UDM-GRPO 为均匀离散扩散模型提出了一种稳定的强化学习训练框架,将 GenEval 准确率从 69% 提升至 96%,OCR 基准准确率从 8% 提升至 57%。
通过扩散策略优化扩展世界模型强化学习
提出模型基扩散策略优化(MBDPO)框架,该框架通过扩散策略表示统一了世界模型中的搜索与策略优化,在离线与在线强化学习任务中实现一致的扩展行为和卓越性能。
通过奖励倾斜分布匹配强化少步生成器
RTDMD是一个两阶段框架,结合分布匹配蒸馏与奖励引导的强化学习,以改进少步图像生成与人类偏好的一致性。它在仅需4步推理的情况下,在多个模型上取得了最先进的结果。