negative-knowledge

#negative-knowledge

语言模型知道不该说什么吗？LLMs中统计抢占的因果证据

arXiv cs.CL ↗ · 2026-05-25 缓存

本文提供了因果证据，表明大型语言模型通过微调操纵竞争形式频率，能够获得统计抢占（构式语法中的一种机制）所涉及的负面语言知识（即不该说什么），且行为变化符合预测方向。

0 人收藏 0 人点赞