标签
本文研究了语言模型中自蒸馏的上下文设计,发现逐步对齐的批评反馈显著优于二元奖励或参考解条件,因为它只针对错误词元,同时保留正确行为。
本文评估了反馈对齐算法在卷积网络中的生物合理性与表征一致性,并在 CIFAR-10 数据集上将其与标准反向传播进行了对比。作者发现,改进的反馈对齐方法收敛出的内部表征与反向传播产生的表征相似,这表明其功能上的成功源于对表征几何结构的模仿。