标签
本文揭示了一个反直觉的现象:语境学习中的正确示例反而可能降低模型准确率,并引入任务保持扰动来研究示例正确性与实用性之间的差距。
介绍了自蒸馏微调(SDFT),一种通过示范实现同策略学习的方法,能够在不发生灾难性遗忘的情况下实现持续学习,性能优于监督微调。