标签
矩匹配Q学习(MoMa QL)利用最大均值差异来匹配所有阶矩统计量,实现离线强化学习中的分布级收敛,在D4RL任务上兼具计算效率和强劲性能。
本文开发了一种用于测试时自适应的PAC-贝叶斯框架,该框架使用MMD球作为信度集,提供了形式化的泛化界,并在分布偏移下区分认知不确定性与偶然不确定性。