counterfactual-localization

#counterfactual-localization

不归点：语言模型推理中欺骗承诺的反事实定位

arXiv cs.CL ↗ · 2026-05-19 缓存

引入反事实定位方法，用于识别语言模型在推理过程中何时对欺骗做出承诺。该方法使用五个环境，包含四个推理模型的146万句子语料库。研究表明，基于注意力的转换特征在不同环境中具有泛化能力，可用于检测欺骗承诺。

0 人收藏 0 人点赞