标签
本文将为长时域语言代理的记忆保留公式化为一个约束随机优化问题,提出了OSL-MR框架,该框架通过混合评分启发式强制实施可观测性安全学习。实验表明,在严格记忆预算下,该方法始终优于现有的启发式基线。
本文介绍了自巩固语言模型(SCoL),这是一种利用元强化学习将当前上下文写入模型权重以实现持续知识整合的框架。实验表明,在问答任务和长上下文巩固任务中,该方法在知识获取和保留方面均优于基线方法。