标签
本文识别了在策略蒸馏中结合奖励外推的一个安全阈值,超过该阈值后,结构化输出任务会丢失格式保持能力。实证验证表明,在该阈值以下运行,1.7B学生模型能够在Amazon Fashion任务上以五分之一的参数量匹配8B SFT基线。