supervised-finetuning

标签

Cards List
#supervised-finetuning

监督微调中涌现错位的特征空间监测

arXiv cs.LG · 2天前 缓存

本文提出了一种特征空间监测方法,通过在激活空间中跟踪表示漂移来检测LLM在监督微调期间的涌现错位,实现了0.990的AUROC,假阳性率和假阴性率低,优于无监督基线。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈