mmd

标签

#mmd

矩匹配Q学习

arXiv cs.LG ↗ · 2026-05-29 缓存

矩匹配Q学习（MoMa QL）利用最大均值差异来匹配所有阶矩统计量，实现离线强化学习中的分布级收敛，在D4RL任务上兼具计算效率和强劲性能。

0 人收藏 0 人点赞

#mmd

MMD球作为信度集：测试时自适应中认知不确定性的PAC-贝叶斯框架

arXiv cs.LG ↗ · 2026-05-22 缓存

本文开发了一种用于测试时自适应的PAC-贝叶斯框架，该框架使用MMD球作为信度集，提供了形式化的泛化界，并在分布偏移下区分认知不确定性与偶然不确定性。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈