truth-probes

标签

Cards List
#truth-probes

角色扮演时,模型是否相信自己所说的话?

arXiv cs.CL · 2天前 缓存

这篇论文通过线性探针研究角色扮演是否仅改变LLM的输出,还是也改变了其内部的真实性表征。研究发现,角色扮演对输出的改变大于对内部信念的改变,而涌现性错位则导致内部表征发生更大变化。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈