标签
LARK提出了一种基于可学习性的推理轨迹选择方法,用于大语言模型蒸馏。该方法采用可学习性因子和χ²正则化选择策略,平衡效率与泛化能力,在多个模型和任务上持续优于基线方法。
我们提出LIFT,一种可学习性引导的扩散语言模型微调算法,该算法根据 token 难度和时间步对齐训练,在推理基准测试上取得了显著提升。