BitTide
首页
最新
模型
工具
新闻
产品
论文
事件
今日日报
搜索
订阅
English
登录
synthetic-dishonesty
标签
Cards
List
#synthetic-dishonesty
当大语言模型学会持续犯错:合成欺骗线性表示的多模型研究
arXiv cs.LG
↗
· 3天前
缓存
本文通过微调五个Transformer模型的诚实与欺骗变体,研究大语言模型中的合成不诚实行为,发现鲁棒且域不变的不诚实表示可以通过适度的监督微调迅速固化,这对基于激活的监控具有重要意义。
0 人收藏
0 人点赞
← 返回首页
意见反馈
×
提交意见反馈
感谢您的反馈!
提交