mmd

标签

Cards List
#mmd

矩匹配Q学习

arXiv cs.LG · 2026-05-29 缓存

矩匹配Q学习(MoMa QL)利用最大均值差异来匹配所有阶矩统计量,实现离线强化学习中的分布级收敛,在D4RL任务上兼具计算效率和强劲性能。

0 人收藏 0 人点赞
#mmd

MMD球作为信度集:测试时自适应中认知不确定性的PAC-贝叶斯框架

arXiv cs.LG · 2026-05-22 缓存

本文开发了一种用于测试时自适应的PAC-贝叶斯框架,该框架使用MMD球作为信度集,提供了形式化的泛化界,并在分布偏移下区分认知不确定性与偶然不确定性。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈