标签
本文介绍了Quantum Frog,一种具有量化时间机制的双人合作游戏,并利用强化学习分析了难度缩放、最优策略以及智能体之间的涌现合作。
介绍LPDS,一个通过缩放逻辑保持变体的难度来系统评估LLM鲁棒性的框架,发现性能下降高达随机采样的5倍,并在更难变体上训练提高了鲁棒性。