synthetic-dishonesty

标签

Cards List
#synthetic-dishonesty

当大语言模型学会持续犯错:合成欺骗线性表示的多模型研究

arXiv cs.LG · 3天前 缓存

本文通过微调五个Transformer模型的诚实与欺骗变体,研究大语言模型中的合成不诚实行为,发现鲁棒且域不变的不诚实表示可以通过适度的监督微调迅速固化,这对基于激活的监控具有重要意义。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈