大型语言模型能否对检索到的信息保持审慎态度?
摘要
本文研究了大型语言模型如何适应检索信息的确定程度,指出了其在处理不确定性方面的系统性局限。论文提出了一种交互策略,在不修改模型权重的前提下,将顺从错误降低了 25%。
arXiv:2605.06919v1 公告类型:new
摘要:大型语言模型已展现出令人印象深刻的检索增强能力。然而,一个关键领域仍缺乏充分探索:模型根据检索信息的确定程度适当调整响应的能力。这一局限性在医疗和金融等高风险领域会产生严重后果。我们评估了八种大型语言模型在上下文确定性顺从方面的表现,衡量其根据所表达的上下文确定性调整响应的程度。我们的分析揭示了系统性的局限:大型语言模型在观察到不确定的上下文后难以召回先验知识,误读所表达的确定性,并过度信任复杂的上下文。为了解决这些问题,我们提出了一种结合先验提醒、确定性重新校准和上下文简化的交互策略。这种方法在不修改模型权重的情况下,平均将顺从错误降低了 25%,证明了交互设计在提高大型语言模型可靠性方面的有效性。我们的贡献包括提出一种严谨的评估指标、提供有关大型语言模型处理不确定性能力的实证见解,以及提出一种可移植策略,以提升各类大型语言模型对上下文确定性的顺从表现。
查看缓存全文
缓存时间: 2026/05/11 06:40
# 大语言模型能否对检索到的信息持保留态度? 来源: https://arxiv.org/html/2605.06919 ###### 摘要 大语言模型(LLMs)已展现出令人印象深刻的检索增强能力。然而,一个关键领域仍未得到充分探索:它们根据检索信息的确信度适当调整响应的能力。这一局限性在医疗和金融等高风险领域具有实际后果。我们评估了八种大语言模型的“上下文确信度服从性”(context-certainty obedience),衡量它们调整响应以匹配所表达上下文确信度的能力。我们的分析揭示了系统性局限:大语言模型在观察到不确定的上下文后难以回忆先验知识,误解所表达的确信度,并且过度信任复杂的上下文。为解决这些问题,我们提出了一种交互策略,结合先验提醒、确信度重新校准和上下文简化。该方法在不修改模型权重的情况下,将服从性错误平均降低了25%,证明了交互设计在提高大语言模型可靠性方面的有效性。我们的贡献包括一个原则性的评估指标、关于大语言模型不确定性处理的实证见解,以及一种可移植的策略,用于提高不同大语言模型的上下文确信度服从性。 $\\star$$\\star$脚注:联系:Behzad Shayegh <[email protected] (https://arxiv.org/html/2605.06919v1/mailto:[email protected])>## 1引言 大语言模型(LLMs)已成为各个领域不可或缺的工具,彻底改变了自然语言处理任务。它们的关键应用之一是检索增强问答(RAQA; Salemi and Zamani,2025 (https://arxiv.org/html/2605.06919#bib.bib17)),其中大语言模型根据检索到的文档生成响应。尽管这一领域取得了显著进展,但一个关键方面仍未得到充分探索:大语言模型如何对检索信息中的不确定性作出反应。这一差距在现实世界的应用中尤为关键,因为信息往往带有固有的模糊性或相互冲突的来源。例如,在医疗诊断中,如果大语言模型检索到关于治疗效果相互冲突的研究,其承认不确定性的能力可以防止过于自信的推荐,从而避免危及患者安全。同样,在财务报告方面,当检索到的市场数据包含投机性预测或未经验证的谣言时,大语言模型考虑不确定性的能力可以减轻误导性投资建议。由于对检索信息确信度的评估已有深入研究Culotta and McCallum (2004 (https://arxiv.org/html/2605.06919#bib.bib26)); Ngarteraet al.(2026 (https://arxiv.org/html/2605.06919#bib.bib25)),使大语言模型能够对这些不确定性作出反应可能是加强大语言模型系统的下一步。 在这项工作中,我们研究大语言模型适应所表达上下文确信度的能力,我们将这一概念称为“上下文确信度服从性”(context-certainty obedience)。我们将确信度分数视为反映检索上下文有效性的未扭曲概率。111未扭曲概率是严格的统计估计,不受心理倾向、沟通错误或夸大其词的影响。超出本文范围的是,所表达的概率可能会失真,特别是在由人类提供时,由于认知偏差,如低估高概率或确定性效应。在将大语言模型集成到更大系统的场景中,解释未扭曲概率至关重要,因为在这些场景中可以提供此类概率。这确保了在需要精确考虑不确定性的场景中的可靠决策。在实践中,确信度分数可以从各种来源得出:校准的检索器置信度分数(Cohenet al.,2021 (https://arxiv.org/html/2605.06919#bib.bib27))、多文档一致性(Biswas and Uzuner,2026 (https://arxiv.org/html/2605.06919#bib.bib28))、来源权威信号(Leeet al.,2026 (https://arxiv.org/html/2605.06919#bib.bib29))或不确定性量化模块(Perez-Beltrachini and Lapata,2025 (https://arxiv.org/html/2605.06919#bib.bib30))。我们的工作假设这些信号是可用的,并解决了互补的问题:大语言模型能否适当解释并据此行动? 我们首先引入基于条件概率分布边缘化的上下文确信度服从性的形式化定义。在此定义下,通过将模型的输出分布与其先验分布(与上下文无关)和基于上下文的分布(严格遵循上下文)的线性组合进行比较来评估大语言模型,权重为确信度因子。预计模型会忽略确信度为0%的上下文,并严格遵守确信度为100%的上下文。这种能力对于保持准确性和可靠性至关重要,因为它意味着忽略嘈杂的上下文信息,并用经过验证的信息覆盖过时或不正确的知识。 上述公式使我们接近有关自主冲突解决的研究(Jinet al.,2024 (https://arxiv.org/html/2605.06919#bib.bib24); Huanget al.,2025 (https://arxiv.org/html/2605.06919#bib.bib20); Zhanget al.,2025 (https://arxiv.org/html/2605.06919#bib.bib21); Daiet al.,2026 (https://arxiv.org/html/2605.06919#bib.bib22); Biet al.,2026 (https://arxiv.org/html/2605.06919#bib.bib23)),这些研究开发了在内部解决参数化知识和检索知识之间冲突的模型。虽然相关,但我们的工作研究了一个根本不同的问题:给定检索知识的外部确信度分数,大语言模型是否会遵守该分数?具体而言,我们希望模型遵循外部信号,而不是内部估计上下文的可信度,这可能与所表达的确信度相矛盾。虽然冲突解决研究是通过测量准确性或其他问答成功指标进行评估的,但我们的研究独立于真实答案,测量“上下文确信度服从性”,而不旨在提高准确性。 随后,我们应用此评估框架来评估各种大语言模型(包括Llama、Qwen和Gemma的大小和大型变体)如何表现出上下文确信度服从性。我们的分析突出了大语言模型的系统性局限: 1. 模型在遇到上下文后几乎总是无法回忆其先前的响应,特别是当上下文高度不确定时,这会严重损害性能。在这种情况下,理想行为(即忽略上下文并恢复先验知识)仍是无法实现的。 2. 大语言模型误解所表达的概率,扭曲其对不确定性的响应。这种不匹配突出了其概率推理中的关键差距,破坏了在确信度敏感场景中的可靠性。 3. 即使确信度较低,模型也会过度信任长篇、复杂的上下文信息。鉴于大语言模型常用于需要参考冗长、复杂信息来源的应用程序,这种倾向尤为关键。 为解决这些局限性,我们提出了一种包含三个步骤的交互策略: 1. 我们提醒模型其上下文前的响应,以强化先验知识的回忆; 2. 我们重新校准确信度表达,以符合模型的概率理解; 3. 我们简化上下文,以减少由复杂性引起的混淆。 我们在ClashEval基准(Wuet al.,2024 (https://arxiv.org/html/2605.06919#bib.bib3))上使用八种不同大小和系列的大语言模型评估我们的方法。我们的交互策略将上下文确信度服从性错误从平均0.52降低至0.39(25%),证明了其有效性,无需重新训练模型。 总之,我们的关键贡献包括: 1. 形式化上下文确信度服从性及其基于依据的评估指标; 2. 强调当前大语言模型在处理上下文不确定性方面的局限性; 3. 提出一种可移植的增强策略,通过交互设计提高任何大语言模型的上下文确信度服从性。 ## 2评估框架 ### 2.1符号和定义 我们考虑一个检索增强问答任务,其中检索到的上下文被分配一个未扭曲的确信度分数,并传达对该问题的明确答案。在本文中,我们将检索上下文传达的问题答案记为a,检索上下文的确信度记为c。在实践中,c将由专用的确信度估计器估计并提供(Cohenet al.,2021 (https://arxiv.org/html/2605.06919#bib.bib27); Leeet al.,2026 (https://arxiv.org/html/2605.06919#bib.bib29); Perez-Beltrachini and Lapata,2025 (https://arxiv.org/html/2605.06919#bib.bib30))。此外,我们定义随机变量K∼Bernoulli(c),其中: - •K=1表示检索上下文有效(即与真实情况一致), - •K=0表示检索上下文是纯噪声。 关键的是,此处的“纯噪声”表示上下文不是系统性地错误,而是与真实情况统计独立,意味着它们可能偶然与之相符。请注意,K是我们工作中的诊断数学结构,而不是关于上下文有效性的本体论声明。 我们用π(X)=P(X|K=0)表示大语言模型在没有上下文信息的情况下对可能响应X的输出分布(先验分布),用δ_a(X)=P(X|K=1)表示给定传达答案a的上下文的确定知识时,大语言模型对可能响应X的输出分布。此处,δ_a是集中在点a处的退化分布,反映了上下文的确信度和答案a的明确性。 ### 2.2理想的上下文确信度服从行为 我们从边缘化条件概率分布的原则推导出上下文确信度服从模型的理想行为。理想模型对可能响应X的输出分布,给定传达答案a的c确信度上下文,为 P_idl(X;c)=P(K=0;c)P(X|K=0)+P(K=1;c)P(X|K=1)=(1−c)⋅π(X)+c⋅δ_a(X) (1) 要点:模型的先验行为应(部分)被上下文覆盖,且覆盖程度应与所表达的确信度一致。 ### 2.3上下文确信度服从误差 我们感兴趣的是研究给定大语言模型遵守所表达上下文不确定性的能力,这被视为大语言模型输出分布P与§2.2中描述的理想输出分布P_idl的接近程度。形式上,我们将“上下文确信度服从误差”定义如下: ε_obey(P) =∫_0^1 d_TV(P(·;c),P_idl(·;c))dc (2) d_TV,已知为总变差距离,是概率函数之间L1距离的一半: d_TV(P(·;c),P_idl(·;c))=1/2‖P(·;c)−P_idl(·;c)‖_1=1/2∑_x‖P(x;c)−P_idl(x;c)‖ (3) 公式(2)本质上是d_TV曲线下的面积。请注意,ε_obey独立于上下文确信度c,表明它考虑了模型调整其对任何给定确信度分数的响应的能力,无论上下文是否与模型的先验知识矛盾或一致,或者是否与真实情况接近或遥远。也就是说,在本研究中,我们评估模型对表达确信度分数的服从性,而不是其准确性。 #### 近似。 直接计算所有可能响应x所需的π(x)和P(x;c)(如公式(3)所示)是不可行的。相反,我们利用自回归生成来近似分布。具体而言,我们逐token生成上下文答案a,记录模型在每个生成步骤中对每个词汇token的预测概率。然后,根据链式法则,通过取逐步概率的乘积来构建代理分布。此分布基于输出前缀集合,提供d_TV的下界,因为它基于部分前缀评估对齐。然而,它关键地捕捉了模型生成上下文答案a的承诺,这对于我们的上下文确信度服从分析至关重要。 问题:...? 上下文:...... 上下文确信度:.% 获取先验响应 简化上下文 重新校准 问题:...? 先验提醒:... 简单上下文:... 重新校准的确信度:.% RAQA 图1:我们交互策略的说明。 ## 3我们的交互策略 为提高大语言模型的上下文确信度服从性,我们提出了一种交互策略。该方法解决了§5中观察到的三个关键局限性,包括它们在回忆先验知识方面的困难、对概率的误解以及对复杂上下文的过度依赖。我们的方法通过三个独立的、可并行化的步骤解决这些挑战(见图1): 参见图2:Gemma (v3.0, 27B)在Locations数据集上使用提示中的先验提醒的重新校准图。目标确信度代表上下文真实确信度,而表达确信度是插入提示中的值。 #### 提醒大语言模型其先前的响应。 我们首先 eliciting 模型在没有上下文信息的情况下对提示的响应,保留其先前的响应。此先验响应将作为提醒反馈给模型。 #### 重新校准表达的确信度。 我们发现对于给定大语言模型,其重新校准映射为 Cal(c)=argmin_{c_0} d_TV(P(·;c_0),P_idl(·;c)) (4) 这种重新校准映射的一个例子如图2所示。在推理期间,我们应用预计算的重新校准映射来调整表达的确信度水平,以与大语言模型的概率解释保持一致。在实践中,由于只需简单的映射,此重新校准步骤在推理时计算效率很高。它需要在设置期间对特定大语言模型的确信度响应行为进行一次实证研究。由于相同的映射适用于所有查询,初始成本会迅速分摊。我们通过留出评估实证展示了一次性重新校准映射的泛化能力:对于每个类别,我们使用除目标类别之外的所有类别的数据计算映射,将目标类别排除在拟合过程之外(§5.3)。这种方法确保该方法的优势正确转移到未见过的问答类别。附录D.2进一步显示,由此类领域偏移导致的性能下降可以忽略不计,确认了映射捕捉的是系统性模型行为,而不是类别特定的噪声。 #### 简化上下文。 为了缓解复杂上下文带来的挑战,我们首先提示
相似文章
大语言模型不确定性中的人类对齐、校准与激活模式
本文研究大语言模型的不确定性与人类不确定性的相似程度,探讨LLMs在多个数据集上的对齐、校准和激活模式,以及指令微调的影响。
大语言模型对其自身回应过度自信
本文探究为何经过指令微调的大语言模型对其自身回应表现出过度自信,并识别出一种“所有权偏差”,即模型对自我生成的答案赋予更高置信度。文章提出一种简单的推理时策略,将模型答案重新表述为用户输入,无需重新训练即可将校准度提升高达26%。
当正确信念崩溃时:临床压力下LLMs的认知韧性
本文研究了大型语言模型在临床环境中面对对抗性压力时如何维持正确信念,提出了R-FT微调方法以在平衡可纠正性的同时提升认知韧性,并在医学基准测试中展示了显著的鲁棒性提升。
论大语言模型适应性的局限:模型内化先验对标注任务性能的影响
本文研究了LLM的内化先验如何影响零样本标注性能,发现近三分之二的错误抵抗基于提示的修正,并引入了定义特定熟悉度(DSF)作为比记忆化指标更好的预测因子。
@pallavishekhar_: https://x.com/pallavishekhar_/status/2058460434035060758
解释大型语言模型实际所做的工作(下一个Token预测),以及为什么即使出错时它们听起来也很有信心。提供了一种心智模型和验证检查清单,用于安全使用LLM。