clip-safety

标签

Cards List
#clip-safety

在策略蒸馏中近确定性结构化输出的外推悬崖

Hugging Face Daily Papers · 5天前 缓存

本文识别了在策略蒸馏中结合奖励外推的一个安全阈值,超过该阈值后,结构化输出任务会丢失格式保持能力。实证验证表明,在该阈值以下运行,1.7B学生模型能够在Amazon Fashion任务上以五分之一的参数量匹配8B SFT基线。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈