有源可查，否则未曾发生：一种用于检测引用幻觉的多智能体框架

arXiv cs.CL 2026/05/12 04:00 论文

摘要

本文介绍了 CiteTracer，这是一个用于检测大语言模型（LLM）生成的科学写作中引用幻觉的多智能体框架，在合成和真实世界基准上均实现了高精度。

arXiv:2605.08583v1 公告类型：新论文摘要：大语言模型在科学写作中的应用日益广泛，但它们可能会捏造出看似合理却无法通过文献检索验证的参考文献。现有的检测器通常将验证过程简化为“找到/未找到”的二元决策，并依赖于脆弱的解析或不完全的检索，难以向审计人员提供字段级别的信号。我们将引用幻觉检测重新定义为与分类体系一致的字段级裁决，并介绍了一种涵盖真实、潜在和幻觉引用的 12 码分类法。基于该分类法，我们构建了 CiteTracer，这是一个级联的多智能体检测器，能够从 PDF 和 BibTeX 中提取结构化引用，通过缓存查找、URL 抓取、学术连接器和网络搜索检索证据，应用确定性的字段匹配，并将模糊案例路由至分类专家裁判。我们发布了一个包含 2,450 条合成引用的基准数据集，这些引用基于真实种子数据，并经过受控的 LLM 突变生成，同时配备了 957 条来自 ICLR 2026 及匿名会议桌拒稿中的真实捏造引用。CiteTracer 在合成基准上达到了 97.1% 的准确率，其中真实、潜在和幻觉类别的 F1 分数分别为 97.0、95.8 和 98.5，并且在真实数据集上检测出了 97.1% 的捏造引用，且无拒答情况。代码：https://github.com/aaFrostnova/CiteTracer。

查看原文

查看缓存全文

缓存时间: 2026/05/12 06:52

# Source or It Didn’t Happen: A Multi-Agent Framework for Citation Hallucination Detection
Source: https://arxiv.org/html/2605.08583
Mingzhe Li1, Zhiqiang Lin2, Shiqing Ma1
1University of Massachusetts Amherst, 2The Ohio State University

###### 摘要

大型语言模型（LLM）在科学写作中的应用日益广泛，但它们可能会捏造看似合理但在文献检索中无法验证的引用条目。现有的检测器通常将验证简化为“找到/未找到”的二元决策，且依赖于脆弱的解析或不完整的检索，未能向审计人员提供细粒度的字段级信号。我们将引用幻觉检测重新定义为与分类体系对齐的字段级裁决，并引入了一种涵盖**真实（Real）**、**潜在（Potential）**和**幻觉（Hallucinated）**引用的12代码分类体系。基于该分类体系，我们构建了**CiteTracer**，这是一种级联式多智能体检测器，能够从 PDF 和 BibTeX 中提取结构化引用，通过缓存查找、URL 获取、学者连接器（Scholar connectors）和网络搜索检索证据，应用确定性字段匹配，并将模棱两可的案例路由至分类专家裁判器。我们发布了一个包含 **2,450** 条合成引用的基准数据集，这些引用基于真实种子并通过可控的 LLM 变异生成，同时附带了 **957** 条来自 ICLR 2026 和某匿名会议 desk-reject（直接拒稿）投稿的真实世界捏造引用。**CiteTracer** 在合成基准上达到了 **97.1%** 的准确率，其中真实、潜在和幻觉类别的 F1 分数分别为 **97.0**、**95.8** 和 **98.5**；在真实世界数据集上，它在非拒绝裁决下检测出了 **97.1%** 的捏造引用。代码：https://github.com/aaFrostnova/CiteTracer\.

## 1 引言

引用是科学交流的基础设施：它们为论点提供依据，分配学术荣誉，并追溯每篇论文背后的证据链条 [Waltman (2016)](https://arxiv.org/html/2605.08583#bib.bib38)。在这个更广泛的引用完整性概念中，文献完整性关注被引用条目的标题、作者、会议/期刊、年份和标识符是否实际对应一篇真实的出版物 [Yuan et al., 2026](https://arxiv.org/html/2605.08583#bib.bib1)。文献级别的错误不仅剥夺了原作者的荣誉，还因为元数据无法回溯到可检索的来源而破坏了可重复性，并随着搜索引擎展示捏造条目而在下游传播 [Rekdal, 2014](https://arxiv.org/html/2605.08583#bib.bib29); [Saro et al., 2024](https://arxiv.org/html/2605.08583#bib.bib26)。

大型语言模型现已深度嵌入研究工作流，特别是在学术写作中，它们帮助生成创意、润色表达并起草投稿文本。这一转变引入了一种新的文献故障模式：LLM 可能依赖文本中的分布模式，生成具有幻觉或不匹配字段（如标题错误、作者不存在或会议与引用作品不符）的类引用条目 [Yuan et al., 2026](https://arxiv.org/html/2605.08583#bib.bib1)。这一风险源于更广泛的幻觉问题，但引用使得这种失败后果尤为严重：它们是高 stakes 的事实主张，其字段应可外部验证，然而 LLM 极其擅长生成看似合理的引用 [Walters and Wilder, 2023](https://arxiv.org/html/2605.08583#bib.bib12); [Chell et al., 2024](https://arxiv.org/html/2605.08583#bib.bib13)。幻觉引用范围从真实论文上的错误元数据，到混合真实与捏造字段的条目，再到完全不存在的出版物，它们需要不同的审计响应（纠正、拒绝或不确定性），而非单一的二元判断。该问题如今已在会议层面成为运营问题：ICLR 2026 主席组建了一个包含超过 **600** 篇因捏造引用而被标记的投稿的 desk-reject 队列，ICML 和 ACM CCS 也为 2026 周期宣布了类似政策 [Sakai et al., 2026](https://arxiv.org/html/2605.08583#bib.bib14); [GPTZero, 2025a](https://arxiv.org/html/2605.08583#bib.bib16); [The Register, 2026](https://arxiv.org/html/2605.08583#bib.bib15)。

**图 1 说明：** CiteTracer 概览。四个阶段依次运行：（1）**引用提取器**将每个引用块解析为结构化字段级记录；（2）**级联证据收集器**遍历内存缓存、URL 获取、八个学者连接器及网络搜索；（3）**字段匹配器**将记录与证据逐字段比较；（4）**分类专家裁判器**裁决模棱两可的案例，并发出与分类体系一致的判决，指出违规字段及原因。现有检测器在两个特定方面遗漏了这一故障表面。首先，它们缺乏细粒度的分类体系以及支持该体系的字段级审计。诸如 Citely [Citely, 2024](https://arxiv.org/html/2605.08583#bib.bib5)、SwanRef [SwanRef, 2024](https://arxiv.org/html/2605.08583#bib.bib6)、CiteCheck [CiteCheck, 2024](https://arxiv.org/html/2605.08583#bib.bib7) 和 RefCheck-AI [RefCheck-AI, 2024](https://arxiv.org/html/2605.08583#bib.bib8) 等商业引用审计工具仅报告二元的是非标签 [van Rensburg, 2025](https://arxiv.org/html/2605.08583#bib.bib9)，而诸如 CiteAudit [Yuan et al., 2026](https://arxiv.org/html/2605.08583#bib.bib1) 等学术审计工具虽查询多个文献 API，但仍发出相同的二元判决，导致模糊的中间地带（昵称变体、非学术来源、边缘元数据缺失）坍缩为同样的 yes/no 信号。像 Hallucinator [Sbardella, 2024](https://arxiv.org/html/2605.08583#bib.bib3) 这样的开源工具并行咨询十余个文献数据库，但判决主要基于标题和作者，留会议、年份、DOI、页码和出版商未经审计。GPTZero 的幻觉模式 [GPTZero Team, 2023](https://arxiv.org/html/2605.08583#bib.bib4) 确实交叉核对外部来源，但仅审计五个字段（标题、作者、日期、URL、出版商），且吞吐量受限于付费订阅。其次，PDF 输入加剧了这一差距：它们的引用解析器会丢弃条目、错误分割作者和标题跨度，甚至偶尔自行幻觉出字段，导致验证器在任何审计发生前就继承了被损坏的输入。

为了解决这些差距，我们引入了一个全面的基准和一个用于引用幻觉检测的多智能体框架。该基准涵盖了审计人员实际需要处理的三类（正确引用、模糊中间地带和具体捏造），并测试了每个核心文献字段（标题、作者、会议/期刊、年份、标识符和边缘元数据）；我们通过从异构文献来源抽取真实引用并逐字段应用可控的 LLM 驱动变异来构建它，因此每个条目都带有已知的真实值代码（表 1 [Table 1](https://arxiv.org/html/2605.08583#S3.T1)）。该框架随后加强了先前系统留下的三个脆弱步骤：一个布局感知的 PDF 提取器，使用视觉 LLM 从边界框裁剪中重新解析每个引用；一个综合检索管道，并行查询所有适用的文献连接器；以及一个严格的分层验证阶段，用确定性规则解决简单案例，仅将分类专家裁判智能体保留给剩余的模糊案例。实验表明，**CiteTracer** 在 **2,450** 条引用的合成基准上达到了 **97.1%** 的准确率，真实类别 F1 为 **97.0**，潜在类别为 **95.8**，幻觉类别为 **98.5**，在 PDF 和 BibTeX 输入下均超越所有基线；在会议主席发布的包含 **957** 条捏造引用的真实世界幻觉引用数据集上，**CiteTracer** 在不拒绝裁决的情况下检测出了 **97.1%** 的捏造引用。我们的贡献总结如下：

- 我们引入了一种 **12** 代码引用幻觉分类体系，在三个类别（真实、潜在、幻觉）下命名了所有字段级故障模式，并发布了一个涵盖五种渲染风格的 **2,450** 条引用合成基准。
- 我们提出了 **CiteTracer**，一种四模块多智能体检测器，结合了布局感知的视觉 LLM 引用提取器、基于八个文献连接器的判决驱动级联、确定性字段级规则匹配以及三个分类专家裁判器，输出逐字段的分类体系对齐判决。
- 我们在 PDF 和 BibTeX 输入下，将 **CiteTracer** 与五种先进基线（GPT-5.5 Thinking, Claude 4.7 Opus Adaptive Thinking, Gemini 3.1 Pro, GPTZero, Hallucinator）进行了评估，其中 **CiteTracer** 在合成基准上达到 **97.1%** 准确率，在真实世界数据集上达到 **97.1%** 召回率，在所有类别上均超越所有基线。

## 2 相关工作

**学术写作中的幻觉。** 大型语言模型即使在表面流畅性得以保持的情况下也会幻觉事实内容，这种故障模式在最近综述 [Huang et al., 2025](https://arxiv.org/html/2605.08583#bib.bib20); [Tonmoy et al., 2024](https://arxiv.org/html/2605.08583#bib.bib21); [Rahman et al., 2026](https://arxiv.org/html/2605.08583#bib.bib46) 以及诸如 SelfCheckGPT [Manakul et al., 2023](https://arxiv.org/html/2605.08583#bib.bib19) 的零资源检测工作中得到表征。在学术写作中，这种故障后果尤其严重，因为引用是结构化的事实主张，其标题、作者、会议/期刊、年份和标识符应解析为真实出版物，然而 LLM 轻易生成看似合理但在文献验证中失败的引用 [Walters and Wilder, 2023](https://arxiv.org/html/2605.08583#bib.bib12); [Chell et al., 2024](https://arxiv.org/html/2605.08583#bib.bib13); [Sakai et al., 2026](https://arxiv.org/html/2605.08583#bib.bib14)。该问题如今已在会议规模上成为运营问题。NeurIPS 2025 主席记录了提交论文中广泛存在的捏造引用，第三方工具每次会议标记数十起案例 [GPTZero, 2025b](https://arxiv.org/html/2605.08583#bib.bib17); [The Register, 2026](https://arxiv.org/html/2605.08583#bib.bib15)；ICLR 2026 组建了一个包含文献中含幻觉引用的投稿的 desk-reject 队列 [GPTZero, 2025a](https://arxiv.org/html/2605.08583#bib.bib16)；ACM CCS 2026 发布了透明度报告，列举了其审稿周期中标记为 AI 捏造的引用 [ACM CCS 2026 Program Committee, 2026](https://arxiv.org/html/2605.08583#bib.bib18)。这些案例确立了引用幻觉作为部署级关切而非研究趣闻的地位，并激励了我们在本文中瞄准的字段级、分类体系对齐的检测。

**引用幻觉检测。** 现有工具分为两类，每类都在字段级使得判决难以审计。诸如 Citely [Citely, 2024](https://arxiv.org/html/2605.08583#bib.bib5)、SwanRef [SwanRef, 2024](https://arxiv.org/html/2605.08583#bib.bib6)、CiteCheck [CiteCheck, 2024](https://arxiv.org/html/2605.08583#bib.bib7) 和 RefCheck-AI [RefCheck-AI, 2024](https://arxiv.org/html/2605.08583#bib.bib8) 等商业引用审计工具仅报告二元的是非标签 [van Rensburg, 2025](https://arxiv.org/html/2605.08583#bib.bib9)，这掩盖了哪个字段出错，并迫使审计人员自行重新进行诊断工作。诸如 CiteAudit [Yuan et al., 2026](https://arxiv.org/html/2605.08583#bib.bib1) 等学术审计工具查询多个文献 API，但仍发出二元判决，因此**潜在（Potential）**中间地带（昵称变体、非学术来源、边缘元数据缺失）坍缩为同样的 yes/no 信号。像 Hallucinator [Sbardella, 2024](https://arxiv.org/html/2605.08583#bib.bib3) 这样的开源工具并行咨询十余个文献数据库，但判决主要基于标题和作者，留会议、年份、DOI、页码和出版商未经审计。GPTZero 的幻觉模式 [GPTZero Team, 2023](https://arxiv.org/html/2605.08583#bib.bib4) 确实交叉核对外部来源，但仅审计五个字段（标题、作者、日期、URL、出版商），吞吐量受限于昂贵的付费订阅，且仅接受 PDF 输入。这些系统没有一个暴露支持审计哪个字段出错及为何出错的逐字段分类体系，这正是我们的 **12** 代码分类体系和字段级多智能体检测器所填补的空白。

## 3 基准

现有的引用审计工具大多是闭源的并报告不透明的指标，因此该领域缺乏一个在一致真实值上比较方法的开放基准。我们通过一个基于真实文献的 **2,450** 条引用合成基准和一个从 ICLR 2026 desk-reject 队列（**807** 条引用）和另一个匿名会议（**150** 条引用）中抽取的 **957** 条引用真实世界测试集填补了这一空白；完整的构建细节和每代码详情推迟到附录 A [Appendix A](https://arxiv.org/html/2605.08583#A1)。

**分类体系。** 文献引用分解为一组固定字段（标题、作者、会议/期刊、年份、标识符、边缘元数据），适当的审计人员响应取决于哪个字段出错以及错误是否可外部验证。我们定义了 **12** 个细粒度代码，分为三个面向审计人员的类别（表 1 [Table 1](https://arxiv.org/html/2605.08583#S3.T1)）。**真实（Real）**（R1–R3）涵盖完全匹配和可规范化的格式变体，如会议缩写、作者首字母和 *et al.* 截断。**幻觉（Hallucinated）**（H1–H6）将单个文献错误定位到一个字段：标题（H1）、作者（H2）、会议/期刊（H3）、年份（H4）、标识符（H5）或边缘元数据（H6）。**潜在（Potential）**（P1–P3）缓冲审计模糊的案例：昵称或音译变体（P1）、无法通过文献索引验证其存在的非学术来源（P2），以及被引用论文没有公共来源记录的边缘字段（P3）。逐字段定位赋予了基准其诊断价值：在否则相同的种子上，错误的标题和错误的 DOI 对应两种需要不同审计纠正的不同错误模式。

**表 1：** **12** 代码引用幻觉分类体系及 **2,450** 条引用合成基准中每代码计数。

**构建。** 我们从开放获取文献存储库（如 DBLP、arXiv、ACL）中抽取种子 BibTeX 条目，涵盖 **50** 篇最近的 ML 和 CS 论文，优先考虑填充最多字段集的条目。对于每个非 R1 代码，我们应用一个触及已记录字段集并保持种子其余部分不变的代码特定变异操作符：一个 LLM 驱动生成器提出候选值，一个确定性后处理器执行操作符的字段模式。我们不包含合成 P2 案例，因为 P2 由来源类型而非文献字段正确性定义：任何明显非学术的引用，如博客帖子、GitHub 仓库或论坛帖子，直接路由至 P2，使其成为路由案例而非具有挑战性的验证案例。每个合成条目在进入基准前通过三次独立检查——操作符差异的往返审计、每个 R1 和 P3 条目的可验证性检查、每个 P1 替换的作者策划边界审查——从 **3,100** 个生成条目中保留了 **2,450** 个分类标签实例；每代码计数与表 1 [Table 1](https://arxiv.org/html/2605.08583#S3.T1) 中的每个代码一起报告。

**真实世界测试集。** 我们另外收集了两个真实世界切片，其中捏造被会议主席标记。第一个切片包含来自 **647** 篇 ICLR 2026 投稿的 **807** 条引用，这些投稿因捏造引用被程序主席 desk-reject[^1]。

有源可查，否则未曾发生：一种用于检测引用幻觉的多智能体框架

相似文章

伪造引文在哪里产生：将字段级幻觉追溯到 LLM 中的特定神经元

超越最终答案：多智能体工业工作流中轨迹级幻觉的审计

@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2054617475484938719

基于智能体AI、嵌套学习与语义缓存的幻觉缓解及AI可持续性

幻觉即利用：携带证据的多模态智能体

提交意见反馈