标签
本文介绍了状态承诺学习,这是一种训练目标,旨在教会语言模型区分临时计算令牌与持久状态令牌。作者提出了反事实擦除强化学习(CERL)和擦除依赖协议,在数学、逻辑、科学问答以及工具使用任务中展示了改进,且未牺牲准确性。
本文通过使用 Jira 问题和自动化规则实现明斯基寄存器机,证明了 Jira 的自动化功能是图灵完备的。