标签
信任区域Q伴随匹配(TRQAM)通过投影对偶下降自适应控制路径空间KL散度,解决了离线策略强化学习中的不稳定性问题,从而实现对预训练流策略的稳定微调。该方法在50个OGBench任务上持续优于先前方法,在离线强化学习中达到68%的成功率,而最强基线仅为46%。
本文将语言生成重新表述为随机最优控制问题,解决了自回归和扩散模型的局限性,并提出了使用Flow Matching在潜在控制空间中的闭环扩散方法,实现了高保真生成和高效并行采样。
本文提出了神经伴随状态策略,建立了循环强化学习隐藏状态与庞特里亚金极小值原理之间的正式联系,以增强可解释性和鲁棒性。