training-data-quality

#training-data-quality

在答案正确的长CoT训练轨迹中诊断有害延续

arXiv cs.AI ↗ · 6天前缓存

本文研究了长思维链（CoT）训练轨迹中的一种有害现象，即结论后延续会降低训练效用，并提出了一种名为HarmfulContinuationCut（HCC）的诊断方法来检测此类有害延续。

0 人收藏 0 人点赞