causal-evidence

标签

Cards List
#causal-evidence

语言模型知道不该说什么吗?LLMs中统计抢占的因果证据

arXiv cs.CL · 2026-05-25 缓存

本文提供了因果证据,表明大型语言模型通过微调操纵竞争形式频率,能够获得统计抢占(构式语法中的一种机制)所涉及的负面语言知识(即不该说什么),且行为变化符合预测方向。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈