PRISM:探究大语言模型幻觉中的推理、指令与源记忆

arXiv cs.CL 论文

摘要

研究人员提出了 PRISM 诊断基准,该基准将大语言模型(LLM)的幻觉拆解为四个维度(知识缺失/错误、推理错误、指令遵循错误),涵盖三个生成阶段(记忆、指令、推理),并通过评估 24 款大语言模型,揭示了各类缓解策略之间存在的权衡关系。

arXiv:2604.16909v1 公告类型:新论文 摘要: 随着大语言模型(LLM)从对话助手演变为能够处理复杂任务的智能体,其应用正日益扩展至高风险领域。然而,现有基准测试大多依赖混合查询与事后评估中的输出级评分。此类方法虽能量化幻觉的严重程度,却难以深入揭示幻觉在生成管线中具体发生于何处及成因。为此,我们将幻觉评估重构为一项诊断任务,并提出 PRISM——一项受控基准测试。该基准以生成的三个阶段(记忆、指令与推理)为基础,将幻觉解离为四个维度:知识缺失、知识错误、推理错误以及指令遵循错误。PRISM 涵盖 65 项任务共 9,448 个样本,支持细粒度且具备阶段感知能力的诊断评估。通过对 24 款主流开源与闭源 LLM 进行评估,我们发现指令遵循、记忆检索与逻辑推理之间存在显著的权衡效应,表明各类缓解策略往往在优化某一维度的同时损害其他维度。期望 PRISM 能为剖析 LLM 幻觉的具体产生机制提供分析框架,进而最终加速可信大语言模型的研发进程。
查看原文
查看缓存全文

缓存时间: 2026/04/21 07:04

# PRISM:探究大语言模型幻觉中的推理、指令与源记忆
来源:https://arxiv.org/html/2604.16909
Yuhe Wu¹, Guangyu Wang²,³, Yuran Chen³, Jiatong Zhang³, Yutong Zhang³, Yujie Chen⁴, Jiaming Shang⁵, Guang Zhang¹*, Zhuang Liu³* (https://arxiv.org/html/2604.16909#corrauthor)
1 HKUST(GZ) 2 NYUSH 3 DUFE 4 CUHK(SZ) 5 CUFE
邮箱:[email protected], [email protected] (https://arxiv.org/html/2604.16909v1/[email protected]):https://acl-prism.cc/

###### 摘要
随着大型语言模型(LLM)从对话助手演变为能够处理复杂任务的智能体,它们正越来越多地被部署于高风险领域。然而,现有的基准测试大多依赖混合查询和后置评估,采用基于输出的评分方式。这种方式虽能量化幻觉的严重程度,却难以深入揭示幻觉在生成管线中究竟*出现在何处*以及*为何产生*。因此,我们将幻觉评估重构为一种诊断问题,并提出 PRISM——一个受控基准测试,将幻觉解耦为四个维度:知识缺失、知识错误、推理错误和指令遵循错误,并基于生成的三个阶段(记忆、指令、推理)进行锚定。PRISM 包含跨越 65 个任务的 9,448 个实例,支持细粒度、阶段感知的诊断式评估。在对 24 个主流开源及专有 LLM 进行评估后,我们发现它们在指令遵循、记忆检索和逻辑推理之间存在一致的权衡关系,表明缓解策略往往在提升特定维度的同时损害其他维度。我们希望 PRISM 能为理解 LLM 幻觉背后的具体机制提供一个分析框架,最终加速可信大语言模型的发展。

![[Uncaptioned image]](https://arxiv.org/html/2604.16909v1/figures/prism.jpg)
PRISM:探究大语言模型幻觉中的推理、指令与源记忆
Yuhe Wu¹, Guangyu Wang²,³, Yuran Chen³, Jiatong Zhang³, Yutong Zhang³, Yujie Chen⁴, Jiaming Shang⁵, Guang Zhang¹††thanks:Corresponding authors\., Zhuang Liu³* (https://arxiv.org/html/2604.16909#corrauthor)
1 HKUST(GZ) 2 NYUSH 3 DUFE 4 CUHK(SZ) 5 CUFE
邮箱:[email protected], [email protected] (https://arxiv.org/html/2604.16909v1/[email protected]):https://acl-prism.cc/

## 1 引言
大语言模型已具备处理复杂任务的能力(Xie et al., 2025 (https://arxiv.org/html/2604.16909#bib.bib1); Wang et al., 2024b (https://arxiv.org/html/2604.16909#bib.bib2); Zhang et al., 2025a (https://arxiv.org/html/2604.16909#bib.bib3); Liu et al., 2025 (https://arxiv.org/html/2604.16909#bib.bib23)),这推动了其在医疗诊断(Singhal et al., 2023 (https://arxiv.org/html/2604.16909#bib.bib4); Thirunavukarasu et al., 2023 (https://arxiv.org/html/2604.16909#bib.bib5))、法律咨询服务(Guha et al., 2023 (https://arxiv.org/html/2604.16909#bib.bib6); Cui et al., 2024 (https://arxiv.org/html/2604.16909#bib.bib7))以及科学发现(Branet et al., 2024 (https://arxiv.org/html/2604.16909#bib.bib8); Boiko et al., 2023 (https://arxiv.org/html/2604.16909#bib.bib9))等高风险领域的应用。尽管当前模型在通用基准测试(Hendrycks et al., 2021 (https://arxiv.org/html/2604.16909#bib.bib16); Achiam et al., 2024 (https://arxiv.org/html/2604.16909#bib.bib15))中表现良好,但在遇到过时概念(Kandpal et al., 2023 (https://arxiv.org/html/2604.16909#bib.bib17); Mallen et al., 2023 (https://arxiv.org/html/2604.16909#bib.bib18))、动态信息(Kasai et al., 2023 (https://arxiv.org/html/2604.16909#bib.bib20); Vu et al., 2024 (https://arxiv.org/html/2604.16909#bib.bib19))或复杂的推理与指令约束(Dziriet al., 2023 (https://arxiv.org/html/2604.16909#bib.bib21); Lanham et al., 2023 (https://arxiv.org/html/2604.16909#bib.bib25); Heyman and Zylberberg, 2025 (https://arxiv.org/html/2604.16909#bib.bib26))时,却经常生成事实不一致的内容(Alansari and Luqman, 2026 (https://arxiv.org/html/2604.16909#bib.bib14))。这种不忠实不仅会侵蚀用户信任,还会在关键决策场景中构成潜在的安全隐患(Thirunavukarasu et al., 2023 (https://arxiv.org/html/2604.16909#bib.bib5); Zhang et al., 2025b (https://arxiv.org/html/2604.16909#bib.bib11))。因此,幻觉评估已成为研究社区必须攻克的基础性难题。

尽管近年来对幻觉量化的关注度不断上升(Lin et al., 2022 (https://arxiv.org/html/2604.16909#bib.bib27); Li et al., 2023 (https://arxiv.org/html/2604.16909#bib.bib28)),现有基准在回答“模型为何失败”这一根本问题上仍存在明显局限。首先,当前基准通常混合使用不同查询,使我们无法孤立地测试特定能力。如图1 (Right Top)所示,TruthfulQA(Lin et al., 2022 (https://arxiv.org/html/2604.16909#bib.bib27))、HaluEval(Li et al., 2023 (https://arxiv.org/html/2604.16909#bib.bib28))和 FreshLLMs(Vu et al., 2024 (https://arxiv.org/html/2604.16909#bib.bib19))等基准通常使用混合查询。当模型在这些测试中失败时,原因往往不明确:是未能检索到正确数据?出现了逻辑错误?还是仅仅忽略了指令?其次,大多数评估仅关注最终输出。即便是 FActScore(Min et al., 2023 (https://arxiv.org/html/2604.16909#bib.bib29))和 HALOGEN(Ravichander et al., 2025 (https://arxiv.org/html/2604.16909#bib.bib31))等详细方法,也依赖于生成后的后置评估。依赖此类结果评估会不可避免地引入人类和模型评估者的双重偏差。此外,这种方法无法通过特定输入来隔离错误。如果不知道流程中具体在哪一环出错,修复模型就会困难得多。抽象对比见表1。如图1 (Right)所示,针对不同机制的改进策略往往涉及固有的权衡:例如,为修正格式错误而进行的强指令微调可能会意外损害严谨的推理能力(Ouyang et al., 2022 (https://arxiv.org/html/2604.16909#bib.bib32); Peng et al., 2023 (https://arxiv.org/html/2604.16909#bib.bib33));而不加选择的知识注入则可能导致灾难性遗忘(Zhai et al., 2023 (https://arxiv.org/html/2604.16909#bib.bib34))。因此,为了实现合理的优化,我们必须解决一个根本问题:如何建立一套框架,精准定位记忆、推理和指令遵循环节的失效点,从而指导缓解幻觉的优化工作?

Refer to caption
**Figure 1**: PRISM 框架概览及优化权衡。左图对比了现有基准的混合查询设计与我们结构化的方法,后者分离认知阶段以精准定位如 KE、KM、RE 和 IFE 等失败维度。右图展示了性能权衡情况:增强指令遵循会削弱推理能力,而知识注入会导致已保留信息的遗忘。

为应对上述挑战并建立可信的诊断框架,我们提出 PRISM,这是一个基于 LLM 交互式管线的评估基准。基于指令遵循、记忆检索和推理这三个生成阶段,我们将幻觉现象精确归类为四个独立的失败维度:
- • **知识错误 (KE)**:模型的参数化知识存储了错误或过时的信息。
- • **知识缺失 (KM)**:模型的参数化知识缺乏回答问题所需的正确信息。
- • **推理错误 (RE)**:模型拥有必要的事实,但未能通过逻辑或推理将它们结合起来。
- • **指令遵循错误 (IFE)**:模型具备正确的知识和推理能力,但其输出违反了用户提供的显式约束。

该设计使我们能够定位模型在生成各阶段的具体短板。我们的主要贡献总结如下:
- • 我们提出了一种认知管线失效框架,将幻觉定义为 KE、KM、RE 和 IFE 四个维度。随后构建了 PRISM,一个包含 9,448 个样本的基准,将这些因素隔离开来,精准定位模型弱点以实现可复现的分析。
- • 我们对 24 种专有和开源 LLM 进行了全面评估,涵盖 4 个维度和 65 个子任务,以评估不同模型类型中幻觉的成因,并鼓励训练针对幻觉优化的 LLM。
- • 基于 PRISM,我们考察了常见幻觉缓解策略的性能权衡。此外,我们构建了一个玩具数据集以支持基于案例的经验研究,从而揭示 LLM 在 KE 和 KM 内存类问题中的内在机制,并分析 IFE 与 LLM 效率之间的关系。这些发现为设计平衡的缓解策略提供了指导。

## 2 基准构建
为实现幻觉机制的精准归因,我们的数据构建遵循正交性原则,即每个数据子集尽可能独立地测试单一失效模式。

### 2.1 数据来源
为实现幻觉维度的归因,PRISM 的数据构建严格遵循正交性原则:每个子集专为测试单一失效模式而设计。如表1所示,现有基准存在评估范围有限且缺乏变量控制的问题,导致指标无法揭示错误成因。因此,我们构建了一个语料库,严格将数据划分为依赖参数化知识的类别与依赖推理和指令的类别,从而实现对特定幻觉模式的隔离探测。更详细的来源列表见附录D。

| 基准 | 评估范围 | 方法设计 | KE | KM | RE | IFE | 变量控制 | 诊断模式 |
|---|---|---|---|---|---|---|---|---|
| TruthfulQA(Lin et al., 2022 (https://arxiv.org/html/2604.16909#bib.bib27)) | ✓ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ |
| HaluEval(Li et al., 2023 (https://arxiv.org/html/2604.16909#bib.bib28)) | ✓ | ✓ | ✓ | ✗ | ✗ | ✗ | ✗ |
| FActScore(Min et al., 2023 (https://arxiv.org/html/2604.16909#bib.bib29)) | ✓ | ✓ | ✗ | ✗ | ✗ | ✗ | ✗ |
| FELM(Chen et al., 2023 (https://arxiv.org/html/2604.16909#bib.bib30)) | ✓ | ✗ | ✓ | ✗ | ✗ | ✗ | ✗ |
| FreshQA(Vu et al., 2024 (https://arxiv.org/html/2604.16909#bib.bib19)) | ✓ | ✓ | ✗ | ✗ | ✓ | ✗ | ✗ |
| FollowBench(Jiang et al., 2024b (https://arxiv.org/html/2604.16909#bib.bib68)) | ✗ | ✗ | ✓ | ✓ | ✗ | ✗ | ✗ |
| HALoGEN(Ravichander et al., 2025 (https://arxiv.org/html/2604.16909#bib.bib31)) | ✓ | ✓ | ✓ | ✗ | ✗ | ✗ | ✗ |
| HalluLens(Bang et al., 2025 (https://arxiv.org/html/2604.16909#bib.bib69)) | ✓ | ✓ | ✓ | ✗ | ✗ | ✗ | ✗ |
| **PRISM (Ours)** | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |

表 1:幻觉评估基准对比。PRISM 独特地实现了*全面的评估范围*、*因果可解释性*以及*解耦探测式诊断*。

#### 参数化知识任务来源
该类别旨在通过与外部客观事实对比,界定模型内部记忆的准确性与边界。我们收集了两类原始语料:
- • **事实数据**:为确保评估标准的事实一致性,我们选取 Wikipedia 和 Baidu Baike 作为 KE 任务的主要来源。与未经过滤的网页文本相比,这些语料噪声更低。我们重点收集长尾和模糊词条,这些内容不在 LLM 的源记忆库中,用于测试模型的记忆覆盖范围及区分具体实体的能力。
- • **分布外 (OOD) 数据**:为评估模型识别未知信息的能力,我们首先建立一个时间新闻语料库,收集了 CNN、Reuters 和 arXiv 在 2025 年 3 月至 2025 年 11 月期间发布的新闻报道和论文摘要。由于该时间段晚于大多数基线模型的训练截止日期,这些材料构成了未来信息的测试源。其次,我们构建了虚构实体语料库。该内容并非来自现实世界,而是通过设置特定属性生成的反事实描述。最后,为覆盖真实但不公开的信息,我们引入了私有领域数据。

#### 推理与指令任务来源
此类数据旨在降低模型对参数化知识的依赖,专注于评估其在给定上下文下执行逻辑推理和规则的能力。我们构建了两种语料,以确保重点放在推理过程而非记忆检索上。
- • **自包含推理数据**:为确保推理过程不受外部知识噪声干扰,我们优先采用解决方案前提严格嵌入输入上下文的任务类型。除了引入 IMO 等竞赛题目以覆盖形式逻辑和数学证明外,我们还纳入了代码生成任务。鉴于其确定的执行逻辑,它们为模型提供了最理想的无歧义推理环境。
- • **复杂指令数据**:除覆盖日常基础指令外,我们专门构建了高约束语料库,并使用自动化模板生成对抗性合成数据。该语料库模拟了指令违规实际发生的场景,即在多维堆叠约束下争夺注意力资源的情况,包括禁止特定词汇的负面语义、要求严格 JSON 输出的格式锁定,以及各种长度和语言限制。

### 2.2 构建流水线
Refer to caption
**Figure 2**: PRISM 基准构建的三阶段流水线
为构建 PRISM,我们设计了如图2所示的三阶段流水线。
#### 数据收集。在此初始阶段,从权威来源收集语料并通过去噪进行清洗。
#### 多智能体数据构建。接下来,我们采用多智能体框架来构建数据:(i) 模式规范化智能体;(ii) 证据检索智能体;(iii) 类型分类智能体;(iv) 质量评分智能体。使每个智能体专注于特定步骤以提升结果,从而提高数据的效率和质量。
#### 人工筛选。领域专家根据清晰度、相关性和连贯性筛选实例,以精修 PRISM。详细的构建流程见附录E。

### 2.3 数据统计
PRISM 共包含 9,448 个评估实例,涵盖 4 个失败维度和 65 个具体子任务。其中,RE 样本 2,995 个 (31.7%),IFE 样本 2,442 个 (25.9%),KM 样本 2,078 个 (22.0%),KE 样本 1,933 个 (20.5%)。数据分布如图3所示。图的左侧展示了一个旭日图,内圈代表四个主要失败维度,外环对应编号 1 至 65 的子任务索引。图的右侧列出了每个索引的详细映射,注明了类别名称及各子任务的确切样本数量。

Refer to caption
**Figure 3**: PRISM 的层次分布。内圈代表四个主要失败维度,外环详细列出 65 个子任务。为保持一致性,我们定义以下缩写:DSK = 领域特定知识,FK = 虚构知识,TK = 时效知识,NPK = 非公开知识,FD = 事实扭曲,IMC = 内部记忆冲突,EIC = 实体身份混淆,LF = 逻辑谬误,PF

相似文章

PRISM: 程序化时空推理基准

arXiv cs.AI

PRISM是一个大规模基准,包含10,372个人工校准的指令-代码对,用于评估程序化视频生成,并采用了一个漏斗式框架,包含四个指标。对七个大型语言模型的评估揭示了代码可执行性与空间一致性之间存在显著差距。

PARALLAX: 区分真实幻觉检测与基准构建伪影

arXiv cs.CL

本文揭示了LLM幻觉检测领域报道的许多进展实际上源于基准构建伪影,其中真实答案被嵌入到提示中,使得简单的文本相似度基线方法能够获得近乎完美的分数。通过大规模受控评估,作者证明,在适当控制下,大多数方法的表现接近随机水平,除了对上层隐藏状态的监督探针(如SAPLMA)以及他们提出的DRIFT。

基准是否低估了 LLM 的性能?采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测

arXiv cs.CL

本文通过采用以大语言模型为先、人工仲裁的评估方法重新评估幻觉检测数据集,研究了标准基准是否低估了大语言模型(LLM)的性能。研究发现,在仲裁过程中融入大语言模型的推理能力可以提高评估的一致性,并表明针对容易产生歧义的任务,采用模型辅助的重新评估能产生更可靠的基准。