synthetic-dishonesty

#synthetic-dishonesty

当大语言模型学会持续犯错：合成欺骗线性表示的多模型研究

arXiv cs.LG ↗ · 3天前缓存

本文通过微调五个Transformer模型的诚实与欺骗变体，研究大语言模型中的合成不诚实行为，发现鲁棒且域不变的不诚实表示可以通过适度的监督微调迅速固化，这对基于激活的监控具有重要意义。

0 人收藏 0 人点赞