标签
本文提出了一种用于基于模型的强化学习中模拟器学习的策略鲁棒性目标,将其建模为模型玩家与对抗性策略玩家之间的极小极大博弈。提供了理论保证和可证明收敛的算法,实验表明预测误差在关键区域降低1.5-2.2倍,并提升了策略从模拟到真实世界的迁移效果。
本文研究了模型输出可能引发模仿的蒸馏攻击,提出了一个极小极大博弈框架和一种名为Product-of-Experts的仅前向传递防御方法,结果表明自适应学生模型能恢复的能力远超被动评估所显示的水平。