data-debugging

标签

Cards List
#data-debugging

预测性数据调试:在训练前揭示并塑造模型所学(11分钟阅读)

TLDR AI · 5天前 缓存

这项研究介绍了一种方法,利用可解释性在训练前预测DPO将从偏好数据集中放大或抑制哪些行为,从而实现数据调试以防止不良影响。该技术达到了R²=0.9的预测准确率,并集成到了Goodfire的Silico平台中。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈