flow-based-models

标签

Cards List
#flow-based-models

矩匹配Q学习

arXiv cs.LG · 2026-05-29 缓存

矩匹配Q学习(MoMa QL)利用最大均值差异来匹配所有阶矩统计量,实现离线强化学习中的分布级收敛,在D4RL任务上兼具计算效率和强劲性能。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈