performance-variation

#performance-variation

深度强化学习中的性能变异

arXiv cs.LG ↗ · 2026-06-08 缓存

本文指出了深度强化学习中传统不确定性估计的局限性，并提出基于百分位数的统计量和可视化方法，以更好地评估运行间性能变异。案例研究展示了该方法在PPO、SAC、TD-MPC、DQN和Rainbow算法上的应用。

0 人收藏 0 人点赞