标签
这项研究介绍了一种方法,利用可解释性在训练前预测DPO将从偏好数据集中放大或抑制哪些行为,从而实现数据调试以防止不良影响。该技术达到了R²=0.9的预测准确率,并集成到了Goodfire的Silico平台中。