counterfactual-localization

标签

Cards List
#counterfactual-localization

不归点:语言模型推理中欺骗承诺的反事实定位

arXiv cs.CL · 2026-05-19 缓存

引入反事实定位方法,用于识别语言模型在推理过程中何时对欺骗做出承诺。该方法使用五个环境,包含四个推理模型的146万句子语料库。研究表明,基于注意力的转换特征在不同环境中具有泛化能力,可用于检测欺骗承诺。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈