标签
本文实证研究了训练数据的组成(课程)如何影响基于强化学习的记忆代理在多会话问答中学到的技能。研究发现,课程组成作为专业化的细粒度杠杆,混合基准测试在整体性能上表现最佳,而狭窄的域外数据集则传递了有针对性的时间推理技能。