标签
本文提出了一种原则性的分层强化学习-最优控制框架,利用逆优化从专家示范中设计低层策略目标,确保与长期任务目标一致。在资源分配和碰撞避免任务上,该框架优于基线方法。
提出并比较了两种在不确定性下进行鲁棒微电网容量配置和功率调度的数学公式,采用局部缩减算法,在蒙特卡洛模拟中实现了高可行性率。
信任区域Q伴随匹配(TRQAM)通过投影对偶下降自适应控制路径空间KL散度,解决了离线策略强化学习中的不稳定性问题,从而实现对预训练流策略的稳定微调。该方法在50个OGBench任务上持续优于先前方法,在离线强化学习中达到68%的成功率,而最强基线仅为46%。
本文将语言生成重新表述为随机最优控制问题,解决了自回归和扩散模型的局限性,并提出了使用Flow Matching在潜在控制空间中的闭环扩散方法,实现了高保真生成和高效并行采样。
本文提出了神经伴随状态策略,建立了循环强化学习隐藏状态与庞特里亚金极小值原理之间的正式联系,以增强可解释性和鲁棒性。