信任却未验证:大型语言模型来源评估中的认知盲区
摘要
这篇论文识别了大型语言模型(LLM)中的一个失败模式:在综合多个来源时,模型不会验证数值统计的有效性,而是依赖分析严谨性的文体标记。作者将此称为“认知对齐”(epistemic alignment),并表明该现象在多个模型和领域中持续存在,且抵制基于提示的缓解措施。
arXiv:2606.05403v1 Announce Type: new
摘要:语言模型日益充当认知代理的角色,综合多个来源的证据以辅助决策。然而,它们究竟是在评估证据的质量,还是仅根据表面呈现进行聚合,这一点仍不清楚。我们证明,模型具备检测捏造统计量的能力(单独评估方法论时正确识别率为0.76-1.00),但在多源综合过程中并未调用这一能力——无论统计量是捏造的还是有效的,都会产生相似的数值估计。具体而言,来源的影响由一个“方法论-语域门”所控制,该门对分析性文本的分布语域作出响应,而非数值有效性:例如,统计上不可能的置信区间与有效区间获得相同权重。这一行为分离现象在来自三个模型家族(Claude、Qwen、OLMo)的五种模型以及三个专业领域中得以复现。机制分析(包括因果追踪、线性探针和组件级归因)均指向同一解释:模型编码并因果性地使用一种跨领域迁移的“方法论-语域”表示(探针AUC为0.83-0.92),而数值有效性信号(在孤立状态下可解码)在多源综合过程中被抑制至随机水平。基于提示的缓解措施——即使是列出确切统计检查的预言清单——也只会产生全面怀疑而非选择性辨别,而我们检查的训练后流程则强化了文体捷径,并未建立数值验证机制。与迎合用户偏好的谄媚不同,这一失败关注的是来源是否呈现出分析可信性,而非其主张是否内部一致。我们将其称为“认知对齐”:与偏好对齐和安全对齐一样,问题不在于能力,而在于部署方式。
查看缓存全文
缓存时间: 2026/06/05 08:10
# 信任,但不验证:大语言模型来源评估中的认知盲区 来源:https://arxiv.org/html/2606.05403 ###### 摘要 语言模型越来越多地充当认知代理,综合多个来源的证据来为决策提供信息。它们究竟是评估证据的质量,还是仅仅根据表面呈现进行聚合,这一点仍知之甚少。我们证明,模型具备检测伪造统计量的能力(在独立评估方法论时正确识别率为\(0.76\)–\(1.00\)),但在多源综合过程中并未调用这一能力,无论统计量是伪造的还是有效的,都产生类似的数值估计。具体而言,来源影响力由一个方法论注册门控控制,该门控对分析文本的分布性注册有反应,但对数值有效性无反应:例如,统计上不可能的置信区间与有效的置信区间获得相同的权重。这种行为分离在来自三个模型家族(Claude、Qwen、OLMo)的五个模型和三个专业领域中重复出现。机制分析,包括因果追踪、线性探针和组件级归因,均指向同一解释:模型编码并因果性地使用一种跨领域迁移的方法论注册表征(探针AUC \(0.83\)–\(0.92\)),而数值有效性信号虽然在独立时可解码,但在多源综合期间被抑制为随机水平。基于提示的缓解措施,即使是列出精确统计检查的预言清单,也只会产生全面怀疑而非选择性辨别,而我们检验的后训练流程强化了风格捷径,并未建立数值验证。与跟踪用户偏好的谄媚不同,这种失败跟踪的是来源是否呈现为分析上可信,而非其主张是否内部一致。我们将其称为认知对齐:与偏好对齐和安全对齐类似,问题不在于能力而在于部署。 ## 1 引言 大型语言模型越来越多地被部署为认知中介:它们总结相互矛盾的证据[10 (https://arxiv.org/html/2606.05403#bib.bib10)],起草分析,并为从医学到金融等领域的重要决策提供信息[42 (https://arxiv.org/html/2606.05403#bib.bib42)]。当这些模型遇到来源之间的分歧时,它们不能仅仅聚合,还必须进行评估。越来越多的研究记录了这种评估的失败,最显著的是谄媚,即模型优先考虑用户偏好而非事实准确性[11 (https://arxiv.org/html/2606.05403#bib.bib11),12 (https://arxiv.org/html/2606.05403#bib.bib12),13 (https://arxiv.org/html/2606.05403#bib.bib13)]。但谄媚追踪的是用户的偏好。当模型必须评估它们所综合的来源时,会出现一个不同且较少被研究的脆弱性:具体而言,即来源的方法论是可信的还是伪造的[41 (https://arxiv.org/html/2606.05403#bib.bib41)]。有理由预期这种脆弱性的存在。人类系统性地受到严谨美学的影响,通常通过绕过分析评估的快速启发式处理[44 (https://arxiv.org/html/2606.05403#bib.bib44),45 (https://arxiv.org/html/2606.05403#bib.bib45)]:无意义的方程提高了非专家对研究质量的感知[14 (https://arxiv.org/html/2606.05403#bib.bib14)],无关的神经科学术语使有缺陷的解释更具说服力[15 (https://arxiv.org/html/2606.05403#bib.bib15)]。Sperber等人将评估传入证言的能力称为认知警惕,并区分了来源级警惕(谁在说话?)和内容级警惕(他们所说的话内部一致吗?)[17 (https://arxiv.org/html/2606.05403#bib.bib17)]。通过RLHF[30 (https://arxiv.org/html/2606.05403#bib.bib30),29 (https://arxiv.org/html/2606.05403#bib.bib29),31 (https://arxiv.org/html/2606.05403#bib.bib31)]和DPO[32 (https://arxiv.org/html/2606.05403#bib.bib32)]在人类偏好上训练的模型可能继承了这些偏见,学会奖励统计严谨的外观而非其实质。这种情况是否属实,以及其背后的机制是什么,尚未在具有机制追踪的受控实验设计中进行检验。 我们直接检验了这一点。在五个模型家族、三个专业领域和超过一百万次试验中,模型在多源综合期间将伪造统计量当作有效统计量一样对待,尽管它们在独立条件下能可靠地检测到伪造。即使模型在它们自己的推理中标记了伪造,它们仍然会认可该来源[34 (https://arxiv.org/html/2606.05403#bib.bib34),35 (https://arxiv.org/html/2606.05403#bib.bib35)]。从机制上讲,我们将这种失败追溯到一条处理通路,其中方法论文元在早期层具有高因果重要性,但在后期层被社会共识削弱[8 (https://arxiv.org/html/2606.05403#bib.bib8)]。线性探针证实了一种对方法论敏感、跨领域迁移的表征,而数值有效性探针则不然[7 (https://arxiv.org/html/2606.05403#bib.bib7),39 (https://arxiv.org/html/2606.05403#bib.bib39),21 (https://arxiv.org/html/2606.05403#bib.bib21)]。我们的贡献是:(1) 一个跨越五个模型家族和三个领域的析因行为实验,表明方法论呈现仅在受到共识调节时才驱动来源影响力,模型在自身推理中标记了伪造但依然认可来源;(2) 线性探针证据表明方法论注册被编码为领域通用表征,而领域通用的数值有效性信号虽然可在独立时解码,但在多源综合中降至随机水平;(3) 因果追踪和组件级归因定位了一个共识门控的方法论信号,并确认了对于伪造数字缺乏纠正信号。基于这些发现,我们推动了认知对齐:即模型是否根据证据质量而非其呈现的表面特征来条件化信任的问题。 ## 2 实验设计 我们研究语言模型如何在逼真的群组对话中综合来自多个来源的相互矛盾的定量估计。每次试验呈现一个工作场所的消息线程(图1 (https://arxiv.org/html/2606.05403#S2.F1)a),其中四个来源(一位高级权威、一个外部机构来源、一位内部分析师和一个第三方参考)报告某个领域特定指标的估计值。我们在三个场景中实例化这一范式:风险投资(VC;C轮尽职调查中的客户留存率)、市场营销(MKT;广告支出回报率用于活动规模扩展)和公共卫生(PH;疾病患病率用于学校关闭指南)。焦点来源的估计与其他三个来源不同程度的共识存在分歧,产生了一个情境间知识冲突[20 (https://arxiv.org/html/2606.05403#bib.bib20),40 (https://arxiv.org/html/2606.05403#bib.bib40)];在读取线程后,模型产生一个单一的数值估计。 参见图注 图1:LLM在对话中信任伪造统计量,但在独立条件下能检测到它们。(a) 群组线程中的四个来源存在分歧;焦点来源用一个不可能窄的置信区间支持一个异议主张。(b) 伪造和有效的统计量在模型的估计中产生相同的偏移
相似文章
是时候 REFLECT 了:我们能信任 LLM 评判者来评估基于证据的研究代理吗?
本文介绍了 REFLECT,这是一个用于评估 LLM 评判者在深度研究代理评估中可靠性的元评估基准。实验表明,当前的 LLM 评判者仍然不可靠,在推理、工具使用和报告质量失败方面的整体准确率低于 55%。
言过其实:量化大语言模型认知-修辞失准的框架
提出一套量化框架,揭示 LLM 如何借修辞手段夸大确定性,并发现跨模型的认知-修辞失准共性。
LLM代理中的忠实不确定性:实践中校准与效用权衡
一位从业者讨论了LLM代理中的校准与效用权衡,分享了基于验证器的流水线经验,该流水线将幻觉工具调用减少了约60%,但引入了延迟成本并丢失了简单的正确答案。
谁的事实能赢?知识冲突下大语言模型的信息源偏好
本论文通过研究检索增强生成中不同信息源的偏好,探究大语言模型如何处理知识冲突。研究发现大语言模型倾向于选择经机构验证的信息源,但这些偏好可通过重复而被逆转,论文提出了一种方法来减少重复偏差同时保持一致的信息源偏好。
大型语言模型能否对检索到的信息保持审慎态度?
本文研究了大型语言模型如何适应检索信息的确定程度,指出了其在处理不确定性方面的系统性局限。论文提出了一种交互策略,在不修改模型权重的前提下,将顺从错误降低了 25%。