谁的事实能赢?知识冲突下大语言模型的信息源偏好

arXiv cs.CL 论文

摘要

本论文通过研究检索增强生成中不同信息源的偏好,探究大语言模型如何处理知识冲突。研究发现大语言模型倾向于选择经机构验证的信息源,但这些偏好可通过重复而被逆转,论文提出了一种方法来减少重复偏差同时保持一致的信息源偏好。

arXiv:2601.03746v3 公告类型:替换 **摘要:** 由于大语言模型(LLMs)在检索增强生成管道中的使用日益频繁,研究其在知识冲突下的行为变得越来越重要。迄今为止,检索信息的来源作用尚未被系统研究。本文通过一个新颖的框架来填补这一空白,以信息可信度的跨学科研究为动力,研究信息源偏好如何影响大语言模型解决上下文间知识冲突的方式(英文)。通过使用合成信息源,我们在不继承特定真实信息源偏差的情况下,研究了对不同类型信息源的偏好。我们对13个开权重大语言模型进行了全面且严格控制的评估,发现大语言模型倾向于选择经机构验证的信息(如政府或新闻媒体来源)而非来自个人和社交媒体的信息。然而,仅通过重复来自可信度较低的信息源的信息,就可以逆转这些信息源偏好。为了缓解重复效应并保持一致的偏好,我们提出了一种新颖方法,可将重复偏差减少至多79.2%,同时保持至少72.5%的原始偏好。我们开源了所有数据和代码,以促进未来关于知识密集型自然语言处理中可信度和信息源偏好的研究。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:31

# 谁的事实赢了?知识冲突下的LLM源偏好

来源:https://arxiv.org/html/2601.03746

Jakob Schuster
海德堡大学
schuster@cl\.uni\-heidelberg\.de

Vagrant Gautam
海德堡理论研究所
vagrant\.gautam@h\-its\.org

###### 摘要

随着大型语言模型(LLM)在检索增强生成(RAG)管道中的应用越来越频繁,研究它们在知识冲突下的行为变得日益重要。迄今为止,检索信息的**来源**的作用一直未被研究。我们通过一个新颖框架来解决这一空白,该框架受跨学科可信度研究的启发,调查源偏好如何影响LLM对上下文间知识冲突的解决。通过使用合成源,我们研究对不同源类型的偏好,而不会继承特定真实源的偏差。通过对1,313个开源权重LLM的全面、严格控制的评估,我们发现LLM更倾向于制度认可的信息(如政府或新闻源)而非来自个人和社交媒体的信息。然而,仅通过重复来自低可信度源的信息就可以逆转这些源偏好。为了缓解重复效应并保持一致的偏好,我们提出了一种新方法,可将重复偏差降低至79.2%,同时保持至少72.5%的原始偏好。我们发布所有数据和代码以促进未来在知识密集型NLP中关于可信度和源偏好的研究。¹

¹https://github.com/JaSchuste/llm-source-preference

## 1 引言

自大型语言模型被迅速采纳作为对话助手以来,它们现已广泛用于知识密集型任务,如问答、摘要和信息检索。然而,当被迫依赖在预训练期间编码的参数知识时,LLM经常生成事实上不正确的陈述。为了减少此类错误,它们通常被嵌入到检索增强生成(RAG)管道中,以便用来自外部源的证据来支撑生成。

虽然检索可以用具体证据支撑答案,但也可能由于歧义的命名实体、过期文档或明确的虚假或误导信息,在上下文之间产生知识冲突。先前关于上下文间冲突的工作已显示模型倾向于选择更相关的检索段落、与参数知识一致的上下文、频繁出现的信息以及LLM生成的信息。然而,迄今为止还没有研究考察**信息来源的作用**在LLM如何解决此类冲突中的影响。

通过调查LLM如何从不同源(如政府、报纸、社交媒体用户、个人)解决知识冲突,以及各种特征(如报纸的发行量、人的年龄),我们填补了文献中的这一空白。我们通过在一个受控的多选题问答(MCQA)设置中系统地评估1,313个模型来做到这一点,其中包含合成冲突和源。合成冲突使我们能够隔离源偏好,忽略预训练知识的影响。类似地,合成源使我们能够抽象到不同源类型的理想形式,忽略与真实世界源的政治倾向、读者群等相关的偏差,类似于关于一般机构或媒体信任的人类调查。研究这些抽象偏好是必要的,以理解特定真实场景如何符合或偏离这些偏好。

我们的核心发现和贡献是:

- •通过跨学科的可信度基础研究(§2),我们引入了一个新颖框架来研究源偏好如何影响LLM对上下文间知识冲突的解决(§3)。

- •源及其特征显著影响LLM如何解决知识冲突,且LLM冲突解决遵循高度一致的**源可信度层级**(§4)。

- •重复来自低可信度源的信息可以翻转LLM源偏好(§5),显示了LLM对虚假信息的关键脆弱性。

- •我们提出了一种新颖的基于微调的方法,可将重复偏差减少至79.2%,同时保持至少72.5%的原始源偏好,即使对于训练中未遇到的源类型也是如此(§6)。

我们的发现(总结在图1中)显示,可信度和源偏好是RAG和QA研究中的丰富方面,对建立可信赖的信息生态系统具有重要影响。

## 2 背景:可信度

可信度在传播学、心理学、认知科学、媒体研究和人机交互中有很长的研究历史。所有关键的传播要素(源、信息、媒介和接收者)都与可信度判断有关。然而,在本文中,我们关注**源可信度**的判断,即对信息来源实体的态度。

早期关于源可信度的研究询问人们在传统印刷媒体、电视和广播源的相互冲突的报道中发现哪个版本最可信。后来的研究开始区分源可信度的多个维度,并将互联网纳入作为源和媒介的研究。

在我们的研究中,我们不是研究人类的可信度判断,而是关注源可信度如何影响**LLM**在知识和源冲突下的决策。我们进行了关于源可信度对比的长期研究实验,包括报纸、政府和社交媒体。根据Fogg和Tseng(1999)的可信度框架,我们调查了**假设可信度**(对源可信度的一般假设)以及**声誉可信度**(基于第三方报告的判断)。通过使用同样可信的事实知识冲突,我们避免了信息可信度的变化,使我们能够隔离LLM中的源可信度。

与人类可信度研究相比,用LLM研究可信度呈现了几个独特的挑战:我们必须控制位置偏差、令牌偏差和结果稳定性,并且我们必须设计一个框架来隔离源偏好,这些偏好是抽象的,超越了在预训练或微调期间获得的对特定源的偏好。在下一节中,我们描述这些问题以及如何通过我们的数据和方法来控制它们。

## 3 数据和方法

我们选择了一个合成知识冲突数据集(§3.1),配合代表长期研究的可信度对比的合成源(§3.2)。使用这些数据,我们评估了来自四个模型家族的1,313个开源权重模型(§3.3)。整体管道如图2所示。

### 3.1 合理的知识冲突对

我们通过扰动七种类型的虚拟实体的属性来构建等同合理知识冲突对的数据集(艺术、建筑、事件、位置、组织、人物、产品),这些实体最初在NeoQA中创建以测试超出领域的QA而非知识冲突或源偏好。NeoQA实体被描述有38个属性,如人物实体的出生日期或组织实体的总部。这个虚拟数据符合真实世界原理、共享的测量单位和日历,并通过自动和人工检查进行了详尽验证。

我们的冲突对包括原始NeoQA实体和同样合理的反事实变体,这些变体仅在一个属性值上有所不同。我们为每个实体属性值生成四个替代方案。²

²我们不为名称、性别和配偶生成变化,因为前者对于识别实体是必要的,后两者与其他属性强烈相互作用。

**数值属性**(如预算或出生日期)通过根据属性自动调整±20%或固定值。**小的合理值集合的分类属性**(如婚姻状况)从LLM生成和手动验证的值集合中采样。那些具有大量潜在值(如职业)的属性通常依赖于其他实体属性。在这里,我们使用Qwen2.5-72B为各个实体生成替代方案。生成提示和数据创建细节在附录A中提供。

一位作者手动验证了所有创建的替代方案,纠正值格式并删除高度不合理的实例(如儿童的非单身婚姻状况)。为了保持数据集的合成性质,我们删除具有英文维基百科条目的专有名词值。通过373个NeoQA实体,我们为总计7,440个冲突对创建了1,903个唯一反事实扰动的属性值。

### 3.2 合成源

我们创建了四种类型的虚拟源:

#### 报纸。
我们从Media Bias/Fact Check收集所有美国报纸名称,使用SpaCy屏蔽所有位置名称,并提取150个最频繁的2、3和4字组。经过去重后,剩余59个报纸模板如"The{LOC}Herald"。我们使用NeoQA的虚拟位置填充这些模板以创建合成报纸名称。

#### 政府。
我们使用Qwen2.5-72B为每种实体类型创建政府机构的模板(例如,人物实体的"Civil Registry of {LOC}")。同样,我们使用NeoQA位置填充这些模板。

#### 社交媒体用户。
我们将@符号与WordNet中的随机形容词和名词以及四位数字连接,模仿Reddit的用户名建议算法(例如@GrantedMortal7505)。

#### 人物。
我们从美国人口普查局和社会保障局抽样1945至2007年间最常见的200个名字组合。我们平等地抽样男性和女性名字,并排除带有英文维基百科页面的组合(如之前的Natalie Kennedy)。

### 3.3 评估方法

#### 模型。
我们评估了1,313个指令微调的开源权重仅解码器模型,覆盖一系列大小和模型家族,始终以此顺序(从上到下)在图表中呈现:Qwen2.5 7B、14B、32B、72B,OLMo 27B、13B、32B,Llama-3.2 3B、Llama-3.1 8B、70B,以及Gemma-2 3B、12B、27B。

#### 强制选择提示。
每个模型输入包含一个**指令**、一个**上下文**、一个**问题**和一组**答案选项**。**指令**提示模型用索引令牌(如A或B)回答后续的多选题。**上下文**包含来自我们数据集的冲突对,格式化为Markdown表格T_A和T_B,以消除文本风格的影响。该对要么没有任何源信息呈现(形式化为元组C = (T_A, T_B)),要么表A归属于源X的实例x,表B归属于源Y的实例y(形式化为C' = (T_A^x, T_B^y))。对于比较源与无源的实验,C'中的x或y是陈述"无可用源"。**问题**随后使用Llama-3.1-70B生成和手动验证的模板询问实体的属性值(如国籍)(如Sarah Kim),并使用从表格中复制的冲突属性值和索引A和B来**答案选项**冗长地表述。

为了控制位置偏差,我们使用两个版本的每个提示,也包括C_rev = (T_B, T_A)和C'_rev = (T_B^y, T_A^x)(见附录B)。这导致总数据集大小为2×7,440个数据点。我们随后获得答案令牌A和B的确定性概率来计算源偏好度量;我们不使用生成,这些已被证明不适合调查模型偏好。

我们在附录C中广泛测试我们设置的有效性,在附录D中包括示例提示,并在附录E中显示我们的结果在不同提示下是稳定的,遵循最佳实践。

相似文章

像科学家一样思考?LLM生成研究方法的结构化研究

arXiv cs.CL

本研究探讨了当仅提供研究问题时,LLM如何推荐研究方法(数据集、模型、指标),发现LLM表现出强烈的提供者偏差,且相比实际论文所提出的方法范围要窄得多,这可能会缩小研究者的方法论搜索空间。

信任却未验证:大型语言模型来源评估中的认知盲区

arXiv cs.LG

这篇论文识别了大型语言模型(LLM)中的一个失败模式:在综合多个来源时,模型不会验证数值统计的有效性,而是依赖分析严谨性的文体标记。作者将此称为“认知对齐”(epistemic alignment),并表明该现象在多个模型和领域中持续存在,且抵制基于提示的缓解措施。

LLM Wiki v2(16分钟阅读)

TLDR AI

本文介绍了一种利用LLM构建个人知识库的模式,为在大语言模型辅助下进行知识管理提供了结构化方法。

Cross-LLM推理一致性:来自共享交互的证据

arXiv cs.AI

本文利用基于交互的解释方法,研究了不同LLM在预测相同词元时是否共享共同的推理模式。结果表明,先进LLM展现出一致的交互模式,暗示它们隐式地优化到了共享的推理机制。