performance-variation

标签

Cards List
#performance-variation

深度强化学习中的性能变异

arXiv cs.LG · 2026-06-08 缓存

本文指出了深度强化学习中传统不确定性估计的局限性,并提出基于百分位数的统计量和可视化方法,以更好地评估运行间性能变异。案例研究展示了该方法在PPO、SAC、TD-MPC、DQN和Rainbow算法上的应用。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈