HalluWorld：基于参考世界模型的可控幻觉基准

arXiv cs.CL 2026/05/20 04:00 论文

摘要

HalluWorld 是一个可控基准框架，通过显式的参考世界模型在网格世界、国际象棋和实际终端任务等合成环境中评估大型语言模型中的幻觉。它可以细粒度分析各种故障模式，例如感知幻觉、多步状态追踪和因果模拟，揭示出前沿模型在处理扩展思维无法解决的复杂推理时仍然存在困难。

arXiv:2605.19341v1 公告类型：新摘要：幻觉仍然是大型语言模型的核心故障模式，但现有基准在摘要生成、问答、检索增强生成和智能体交互等任务中对其定义不一致。这种碎片化使得在一种设置下有效的缓解措施是否能够减少跨上下文场景中的幻觉变得不明确。当前的基准要么需要人工标注和可能被记忆的固定参考，要么依赖难以复现的设置中的观察。为了研究根本原因，我们提出了 HalluWorld，这是一个可扩展的基准，基于显式的参考世界公式：当模型产生一个相对于这个世界为假的观察声明时，即产生幻觉。基于这一观点，我们构建了完全指定参考世界、控制模型视图并自动生成幻觉标签的合成和半合成环境。HalluWorld 涵盖网格世界、国际象棋和实际终端任务，能够对世界复杂性、可观测性、时间变化和源冲突策略进行可控变化，并将幻觉分解为细粒度的错误类别。我们评估了前沿和开放权重语言模型在这些设置中的表现，发现一致的模式：前沿模型在直接观察信息的感知幻觉方面几乎已解决，而多步状态追踪和因果前向模拟仍然困难，且通常无法通过扩展思维解决。在终端设置中，模型在何时应弃权方面也存在困难。跨探测类型和领域的不均匀失败分布表明，幻觉源于不同的故障模式，而非单一能力。我们的结果表明，受控参考世界为衡量和减少现代语言模型中的幻觉提供了一条可扩展且可重复的路径。

查看原文

查看缓存全文

缓存时间: 2026/05/20 08:25

# HalluWorld：基于参考世界模型的受控幻觉基准

来源：https://arxiv.org/html/2605.19341

Emmy Liu 卡内基梅隆大学 & Varun Gangal Patronus AI & Michael Yu 独立研究员 & Zhuofu Tao 独立研究员 & Karan Singh 斯坦福大学 & Sachin Kumar 俄亥俄州立大学 & Steven Y. Feng 斯坦福大学

所有作者均隶属于 DegenAI Labs。通讯作者：Emmy Liu ([email protected]), Varun Gangal ([email protected]), 以及 Steven Y. Feng ([email protected])。

###### 摘要

幻觉（Hallucination）仍然是大型语言模型的核心失效模式，但现有基准在总结、问答、检索增强生成和智能体交互等不同任务中对幻觉的定义不一致。这种碎片化使得在一类场景中有效的缓解措施是否能在其他上下文中也能减少幻觉变得不明确。当前的幻觉基准要么需要人工标注和固定的参考（这些参考最终可能被模型记忆），要么依赖于在难以复现或系统测试的场景中记录的自然观测。为了推动对幻觉根本原因的进一步研究，我们引入了 **HalluWorld**，一个可扩展的基准框架，其基础是显式的参考世界公式：当一个模型产生一个相对于该参考世界为假的、可观察的声明时，它就出现了幻觉。基于这一观点，我们构建了一系列合成和半合成的基准环境，在这些环境中，参考世界被完全指定，模型的可观测视图是可控的，并且幻觉标签可以通过构造自动生成。**HalluWorld** 涵盖了对 AI 领域具有经典代表性的多种场景，即网格世界、国际象棋和逼真的终端任务。这使得我们可以对世界复杂性、可观测性、时间变化和源冲突策略等关键因素进行受控变化，从而将幻觉分解成更细粒度的错误类别。我们评估了前沿和开放权重的语言模型在这些场景中的表现，并发现了跨领域的一致模式：对于前沿模型，对直接观测信息的感知幻觉几乎已经解决，而多步状态跟踪和因果前向模拟对前沿模型来说仍然困难，并且通常不能通过扩展思考来解决。特别是在终端场景中，模型在何时应该拒绝回答方面也面临困难。不同探测类型和领域之间不均匀的失败模式表明，不同的幻觉源自性质上不同的失效模式，而不是反映单一的基础能力。我们的结果表明，受控的参考世界为测量和减少现代语言模型中的幻觉提供了一条可扩展且可复现的路径。

††脚注：代码和数据：https://github.com/DegenAI-Labs/HalluWorld

## 1 引言

尽管在缓解方法上付出了多年努力，幻觉仍然是前沿语言模型（LM）中一个未解决的问题。随着基于 LM 的智能体越来越多地用于高风险场景，精确理解是什么条件导致 LM 产生幻觉以及为什么变得至关重要。尽管被归为同一个术语，但误读事实、记错先前的决策、错误推理部署环境或相信错误信息是不同模式的失败，需要不同的缓解方法。尽管现有基准在幻觉分类方面取得了进展 [52 (https://arxiv.org/html/2605.19341#bib.bib21), 77 (https://arxiv.org/html/2605.19341#bib.bib77), 2 (https://arxiv.org/html/2605.19341#bib.bib65)]，一个关键的局限性在于环境、LM 可以观察到什么、以及它必须如何解决冲突信息是由设计固定的，无法独立变化，这使得隔离失败模式变得困难。为了解决这个问题，我们将我们的方法建立在 Liu 等人 [41 (https://arxiv.org/html/2605.19341#bib.bib24)] 最近提出的一个统一的幻觉公式上，该公式将幻觉分解为一个**参考世界**（编码一组真实状态和转移）、一个**视图函数**（控制模型可以观察到什么）和一个**冲突策略**（决定可观察来源之间的冲突如何解决）。在这种设置下，当模型的输出与真实情况的参考世界相矛盾时，就发生了**幻觉**。使这些组件显式化，允许我们通过独立变化一个因素而保持其他因素固定，从而以系统的方式对模型进行压力测试。具体来说，考虑一个负责定位配置文件的终端智能体：当给定完整的目录输出时，同一个智能体可能回答正确；当给定部分输出时，它会幻觉出一个文件路径；当过时的日志与它当前能观察到的情况相矛盾时，它会幻觉出另一个不同的路径。通过隔离触发幻觉的条件，我们可以通过有针对性的干预来主动支持模型。

参见标题

图 1：**HalluWorld** 基准涵盖三个领域（网格世界、国际象棋和终端），并使用针对不同认知技能的五个探测类别来测试模型：**因果（C）** 测试对因果关系的理解，**感知（P）** 测试空间推理和物体追踪，**记忆（M）** 测试对过去观察的保持，**不确定性（U）** 测试在部分可观测性下的推理，**复合/X（X）** 测试跨连接环境的多步推理。幻觉是通过放置探针来测量的，这些探针询问模型它们所见的环境观测。每个领域的 **HalluWorld** 定性示例可在 §A (https://arxiv.org/html/2605.19341#A1) 中找到。

我们构建了一系列基准，**HalluWorld**，包含三个领域：一个可定制的网格世界、一个国际象棋环境和一个智能体终端环境。在这些世界中，幻觉的真实标签通过构造定义，无需人工标注。关键的是，**HalluWorld** 设计为**可扩展的**——可以为每个环境轻松添加询问幻觉的新问题。我们的贡献可以总结如下：

1.  我们引入了 **HalluWorld**，一个基准框架，它将幻觉实现为相对于显式参考世界和冲突策略的可观察错误。
2.  我们将我们的基准实例化为一系列受控环境，涵盖网格世界、国际象棋和终端任务。我们的基准在网格世界环境中包含 33 个独特关卡和 839 个探针问题，在国际象棋环境中包含 7 个独特关卡和 350 个探针，在终端环境中包含 110 个独特任务和 529 个探针。此外，网格世界环境上的关卡编辑器和轨迹记录器使其能够扩展到更复杂的场景。
3.  我们在 **HalluWorld** 上对十几个前沿和开放模型进行了基准测试，发现对于前沿模型，对直接观测信息的感知准确性几乎已经解决，而记忆幻觉和因果前向模拟即使对前沿模型来说仍然是一个问题。此外，模型一致地依赖环境证言而非直接观测。增加思考努力很少能一致地带来帮助，这表明仅靠推理可能无法缓解幻觉。

## 2 相关工作（在 §K (https://arxiv.org/html/2605.19341#A11) 中扩展）

传统上，幻觉是相对于固定来源定义的，例如，摘要中的无依据内容，后来扩展到 LLM 输出中的事实错误 [32 (https://arxiv.org/html/2605.19341#bib.bib64), 44 (https://arxiv.org/html/2605.19341#bib.bib80), 28 (https://arxiv.org/html/2605.19341#bib.bib88), 39 (https://arxiv.org/html/2605.19341#bib.bib97), 34 (https://arxiv.org/html/2605.19341#bib.bib72)]。最近的工作强调，基准经常混淆多种失败模式，并且缺乏一致的定义，这促使了更结构化的公式化，例如幻觉的“世界模型”观点 [2 (https://arxiv.org/html/2605.19341#bib.bib65), 41 (https://arxiv.org/html/2605.19341#bib.bib24)]。大多数现有的基准在*静态*场景中评估幻觉：摘要和问答基准根据固定的文档或事实定义真实性，而 RAG 基准研究参数知识和检索知识之间的冲突，但将提供的上下文视为完整的参考 [31 (https://arxiv.org/html/2605.19341#bib.bib59), 48 (https://arxiv.org/html/2605.19341#bib.bib60), 49 (https://arxiv.org/html/2605.19341#bib.bib86), 17 (https://arxiv.org/html/2605.19341#bib.bib85)]。最近关于 RAG 考虑预训练的工作研究了模型在预训练期间应如何在参数记忆和检索之间分配知识，强调了幻觉倾向可能取决于什么信息被外部可观测 vs. 在参数中学习 [57 (https://arxiv.org/html/2605.19341#bib.bib7)]。智能体基准，如 **MIRAGE-Bench** 和 **AgentHallu**，评估动作级别的幻觉，但依赖于快照审计或人工标注，而不是完全指定、可控的世界 [77 (https://arxiv.org/html/2605.19341#bib.bib77), 42 (https://arxiv.org/html/2605.19341#bib.bib44)]。**HalluWorld** 的不同之处在于，它在*部分观测、不断演变的环境*中评估幻觉，其真实情况由模拟器状态定义。这允许自动、可复现的标注，以及对可观测性、时间动态和冲突证据的受控变化。通过结合幻觉的显式定义、可控环境和自动标签，**HalluWorld** 为研究幻觉何时发生以及为什么发生提供了一个更精确和诊断性的框架。

## 3 HalluWorld 基准套件

**HalluWorld** 涵盖三个领域：网格世界、国际象棋和终端任务。每个领域都为模型实例化了一组不同的挑战。网格世界是完全合成的、可定制的类游戏环境，通常用作强化学习和规划的测试平台 [61 (https://arxiv.org/html/2605.19341#bib.bib26), 64 (https://arxiv.org/html/2605.19341#bib.bib27)]。因此，它们提供了一个高度可控的世界状态和特定的挑战实例，同时除了游戏特定的先验知识外，与预训练数据的重叠最小。另一方面，终端环境为部署的智能体提供了最现实的场景，因为我们用于生成基准的轨迹基于真实的软件工程任务。然而，终端上下文的复杂性和噪声使其在隔离特定失败模式方面稍微困难一些。国际象棋处于中间位置：它是一个真实且定义明确的领域，在预训练中有很好的表示，但生成新的棋盘状态和检查正确性很容易。

**实例化参考世界模型框架**。我们的基准套件直接实例化了近期工作中提出的形式化幻觉定义 [41 (https://arxiv.org/html/2605.19341#bib.bib24)]，该定义将幻觉定义为相对于参考世界 W = (S, H, R)，视图函数 V 和真值函数 T_{W, P} 的可观察世界模型误差。表 1 (https://arxiv.org/html/2605.19341#S3.T1) 显示了每个环境系列如何指定这些组件。在所有三个领域中，W 是*明确指定且可通过编程方式知道的*，从而无需人工或模型标注即可生成自动的真实情况。当出现对抗性信息时（例如，网格世界中的误导性路标，国际象棋中的转置 FEN 字符串），冲突策略 P 发挥作用。

表 1：三个 **HalluWorld** 系列中参考世界模型框架的实例化。每个领域都提供了一个完全指定的 W、可控的 V 和可计算的 T_{W, P}。

**共享的探测类别**。我们为每个领域使用一组五个**探测类别**，每个类别针对一个不同的认知需求。
*   **感知 (P)** 探针测试直接从当前观测中读取存在的值。
*   **记忆 (M)** 探针需要跨多个先前的观测跟踪值或状态。
*   **因果 (C)** 探针需要对因果关系进行推理，或在环境力学下对行动的结果进行前向模拟。
*   **不确定性 (U)** 探针需要认识到可用证据的局限性，并在上下文不足时拒绝给出明确的答案。国际象棋按设计省略了不确定性探针（§3.2 (https://arxiv.org/html/2605.19341#S3.SS2)）。
*   **复合 (X)** 探针需要同时集成来自多个上下文部分、房间访问或工件类型的证据。

### 3.1 HalluWorld-Grid：用于受控幻觉探测的交互环境

**HalluWorld-Grid** 是一系列手工制作的网格世界环境，构建于 MiniGrid [7 (https://arxiv.org/html/2605.19341#bib.bib15)] 之上。它包含 33 个独特关卡和 839 个探针问题（参见 §C (https://arxiv.org/html/2605.19341#A3) 获取完整关卡列表）。幻觉标签从环境状态自动生成。我们提供了一个关卡编辑器和轨迹记录器，以允许制作更复杂的环境-探针元组（参见 §J (https://arxiv.org/html/2605.19341#A10)）。

**序列化器**控制*如何*将环境状态呈现给模型；换句话说，这是独立于内容本身对 V 的操作。我们实现了三种格式（表 2 (https://arxiv.org/html/2605.19341#S3.T2)）。

表 2：**HalluWorld-Grid** 中使用的序列化器格式。每个格式都独立于状态内容，控制世界状态对模型的表现。

**评估细节**：关卡被组织成五个探测类别（§1 (https://arxiv.org/html/2605.19341#S3.T1)），具有特定的实例化：
*   **P**（6 个关卡）在不同物体密度、方向和变化条件下测试静态场景感知。
*   **M**（6 个关卡）通过多房间穿越和基于河流物理的物体追踪来探测时间整合能力。
*   **C**（9 个关卡）引入交互式机制：火、洪水和压力板。难度较高的关卡会出现与观测相矛盾的对抗性布告板（参见 §D (https://arxiv.org/html/2605.19341#A4)）。
*   **U**（5 个关卡）涵盖未观察到的房间、可靠性不同的路标以及包含无法回答问题的场景。
*   **X**（7 个关卡）将上述内容结合到扩展的多房间情节中，并在整个观测历史中提问。

注：对抗性布告板和路标，连同智能体的观测，是多个信息来源的示例，冲突解决策略 P 是智能体应依赖其自身的观测（真相来源）。

在每个关卡内，探针采用六种封闭式答案类型之一：
*   **存在**（是/否物体检测）
*   **计数**（精确整数）
*   **状态**（属性/门状态）
*   **位置**（坐标）
*   **因果**（前向模拟结果）
*   **不确定性**（具体回答或“无法确定”）

### 3.2 HalluWorld-Chess：规则主导领域中的结构化世界模型探针

国际象棋为网格世界提供了一个互补的环境：国际象棋是一个在训练数据中表示良好的领域 [36 (https://arxiv.org/html/2605.19341#bib.bib25)]，并且拥有一组丰富的、认知上不同的问题类型，这些类型自然地映射到我们的探测类别。国际象棋也探测了一种对抗形式的幻觉：位置来自真实的 Lichess 谜题，因此模型可能同时对“典型”游戏延续持有强烈的分布先验*并且*面对一个与之相矛盾的观测位置。

**环境和观测格式**。每个情节从一个精心挑选的 Lichess FEN [11 (https://arxiv.org/html/2605.19341#bib.bib28)] 字符串池中抽取一个位置（不同评分和主题层）。在呈现探针之前，随机进行 k 步合法的连续走法

相似文章

OpenHalDet：一种针对多样生成场景下幻觉检测的统一基准

arXiv cs.CL

OpenHalDet 是一个用于大语言模型幻觉检测的统一基准，它标准化了跨不同生成场景的评估，并支持黑盒、灰盒和白盒检测方法。

HalluScore：大语言模型幻觉问答基准

arXiv cs.CL

介绍HalluScore，一个结构化的阿拉伯语问答基准，用于评估大语言模型在不同推理难度、知识领域和文化背景下的幻觉。包含827个带有验证证据和注释的问题，已在17个大语言模型上测试。

PARALLAX: 区分真实幻觉检测与基准构建伪影

arXiv cs.CL

本文揭示了LLM幻觉检测领域报道的许多进展实际上源于基准构建伪影，其中真实答案被嵌入到提示中，使得简单的文本相似度基线方法能够获得近乎完美的分数。通过大规模受控评估，作者证明，在适当控制下，大多数方法的表现接近随机水平，除了对上层隐藏状态的监督探针（如SAPLMA）以及他们提出的DRIFT。

MeasHalu：通过增强推理缓解大语言模型的科学测量幻觉

arXiv cs.CL

# MeasHalu：通过增强推理缓解大语言模型的科学测量幻觉来源：[https://arxiv.org/html/2604.16929](https://arxiv.org/html/2604.16929) Ruijun Huang1,Zhiqiao Kang1,Yuxuan Zhu1,Junxiong Li1,Jiahao Zhao1, Minghuan Tan1,Feng Jiang211footnotemark:1,Min Yang1 1 中国科学院深圳先进技术研究院高性能数据挖掘深圳市重点实验室 2 深圳大学人工智能研究院

HalluSAE：利用稀疏自编码器检测大型语言模型中的幻觉

arXiv cs.CL

北京航空航天大学等机构的研究人员提出了HalluSAE，这是一个结合稀疏自编码器与相变理论的框架。该框架通过将生成过程建模为穿越势能地形的轨迹，来检测大型语言模型（LLM）中的幻觉，并精准定位发生事实性错误的关键过渡区域。

相似文章

OpenHalDet：一种针对多样生成场景下幻觉检测的统一基准

HalluScore：大语言模型幻觉问答基准

PARALLAX: 区分真实幻觉检测与基准构建伪影

MeasHalu：通过增强推理缓解大语言模型的科学测量幻觉

HalluSAE：利用稀疏自编码器检测大型语言模型中的幻觉

提交意见反馈