linear-features

标签

Cards List
#linear-features

使用级联线性特征检测与控制谄媚行为

arXiv cs.AI · 昨天 缓存

提出了一种迭代数据生成管道,用于隔离语言模型中导致谄媚行为的级联线性特征,从而以低于基线方法的计算成本实现检测、评分和引导。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈