标签
本文研究了渐变非平稳环境下强化学习中的稳定性-可塑性困境,发现通过跨多个时间尺度的突触巩固来稳定后继特征,其效果优于专注于可塑性的方法。
本文引入了 CXR-MAX,这是一个大规模基准,旨在利用来自多个多模态大语言模型(MLLM)的 X 射线数据,评估非平稳环境下的推理对齐性能。