标签
作者分享了对三种持续学习方法的兴奋:SEAL模型(自适应)、测试时学习和终身模型编辑,预测到2027–2028年将实现真正的持续学习,从而形成一个通往人工超级智能的反馈循环。
本文研究了推理任务的多样本思维链上下文学习,揭示了标准扩展规则并不适用,并提出了Curvilinear Demonstration Selection (CDS)方法以改进示例排序,最高可获得5.42个百分点的性能提升。
本文介绍了 PACEvolve++,这是一种强化学习框架,通过将假设生成与执行解耦,提高了进化搜索代理在测试时的策略适应能力。
EvoTest 引入了 J-TTL,一个衡量智能体测试时学习能力的基准,并提出了一个进化框架,其中 Actor 智能体玩游戏,而 Evolver 智能体在不进行微调的情况下迭代改进系统的提示、记忆和超参数。该方法在基于复杂文本的游戏中表现出优于基于反思和记忆的基线方法的性能。