文本恐怖谷:大语言模型在信息检索任务中表现的非单调性下降

arXiv cs.CL 论文

摘要

本研究探讨了“文本恐怖谷”现象,即随着词边界破坏程度的增加,大语言模型(LLM)在信息检索任务中的表现出现非单调性下降。作者提出了“模式转换假说”以解释这种U型性能曲线,并证明了该假说与现实世界中噪声文本输入的相关性。

arXiv:2605.07186v1 公告类型:新文章 摘要:现有的大型语言模型(LLM)基准测试主要集中于语法正确的输入,在针对不完美文本的评估方面存在显著空白。在本研究中,我们探讨了词边界破坏如何影响LLM对目标信息的检测能力。通过在单词内部插入空白字符将其拆分为片段,我们发现随着插入率的增加,LLM的检测准确率呈现出一条U型曲线。我们将此曲线称为“文本恐怖谷”。为解释这一观察结果,我们提出了“模式转换假说”:LLM在处理接近正常的文本时处于词级模式,而在处理严重碎片化的文本时处于字符级模式,而“谷”部标志着既非词级也非字符级模式有效的混乱过渡阶段。四项实验和一项分析与此解释相符:上下文学习无法挽救谷底表现;对扰动进行正则化处理可显著削弱U型趋势;在数学推理任务中,Gemini 3.0 Flash 再现了U型曲线,但性能更强的模型则未出现此现象,这表明当任务较少依赖精确词汇对齐时,该效应会减弱;此外,分词熵在F1分数达到最低值之前达到峰值,这与“体制冲突”的解释一致。这些发现揭示了一种在干净文本基准测试中不可见的失败模式,但却直接适用于任何涉及噪声或未筛选文本输入的部署场景。
查看原文
查看缓存全文

缓存时间: 2026/05/11 06:53

# 大语言模型信息检索中的非单调性能退化
来源: https://arxiv.org/html/2605.07186
## 文本恐怖谷:大语言模型信息检索中的非单调性能退化

Zekai Tong1,∗\*Ruiyao Xu2Aryan Shrivastava1 Chenhao Tan1Ari Holtzman1 1芝加哥大学2西北大学

###### 摘要

现有的大型语言模型(LLM)基准测试主要关注语法正确的输入,导致在对不完美文本的评估方面存在显著空白。在本研究中,我们探讨了词边界腐败(word-boundary corruption)如何影响 LLM 检测目标信息的能力。通过在单词内插入空格字符将其分割成片段,我们发现随着插入率的增加,LLM 的检测准确率遵循一条U形曲线。我们将这条曲线称为文本恐怖谷(Text Uncanny Valley)。为了解释这一观察结果,我们提出了*模式转换*假说:LLM 对近似正常的文本运行在词级别模式,而对严重碎片化的文本运行在字符级别模式,山谷标志着既无效也不有序的过渡状态。四项实验和一项分析与此解释一致:上下文学习(in-context learning)无法挽救谷底的性能;正则化扰动显著减少了 U 形效应;Gemini 3.0 Flash 在数学推理任务中复制了 U 形曲线,但更强的模型没有,这表明当任务较少依赖精确的词汇对齐时,该效应会减弱;且词元化熵(tokenization entropy)在 F1 最小值之前达到峰值,这与机制冲突的解释一致。这些发现揭示了一种在干净文本基准中不可见,但在任何涉及嘈杂或未加筛选文本输入的部署场景中直接相关的故障模式。

11脚注:∗通讯作者:zekaitong@uchicago\.edu参见说明图1:切片面包作为我们文本碎片化方法及其导致的文本恐怖谷现象的类比。我们评估了三个任务:AbsenceBench、NIAH 风格任务和数学推理。图像由 ChatGPT 生成。## 1 引言

大型语言模型(LLM)越来越多地部署在输入文本远非“干净”的环境中。通过光学字符识别(OCR)从 PDF 中提取的文档、从网页复制粘贴的内容以及自动化管道生成的输出,通常包含格式伪影,包括在单词内插入的虚假空格(例如 international→to int er nation al)。这种腐败现象在处理未加筛选文本的任何系统中都会常规发生,但没有现有的基准测试衡量其对 LLM 性能的影响。尽管最近的研究已经开始评估 LLM 在嘈杂文本下的鲁棒性(Singh 等人,2024 (https://arxiv.org/html/2605.07186#bib.bib5); Agrawal 等人,2025 (https://arxiv.org/html/2605.07186#bib.bib4); Piryani 等人,2025 (https://arxiv.org/html/2605.07186#bib.bib30)),但没有任何研究考察在要求两个文档版本之间进行*精确*跨度级匹配的任务上,词边界腐败的影响,此时词元化破坏有最大空间造成损害。

为了弥补这一空白,我们研究了两个互补的评估任务:缺失检测(absence detection)(Fu 等人,2025 (https://arxiv.org/html/2605.07186#bib.bib1)),其中模型识别故意省略的行,以及 NIAH 风格任务(NIAH-style task)(Kamradt,2023 (https://arxiv.org/html/2605.07186#bib.bib9)),其中模型识别插入的行。这两个任务都要求模型在行级别对齐两个文档版本,使它们对任何破坏词边界的腐败现象都非常敏感。为了以受控方式研究这种敏感性,我们在单词内部以可调速率 `word_fragmentation_rate` ∈ [0,1] 插入空格,从干净文本(`word_fragmentation_rate`=0)到完全字符分离的文本(`word_fragmentation_rate`=1)跨越十一个级别和三个领域,包括法律合同、GitHub 拉取请求(PR)和数学推理。

最直观的期望是单调退化:腐败越多,性能越差。相反,我们在最强模型家族中观察到的是非单调 U 形性能曲线:随着碎片化增加,Micro-F1 下降,在中等速率下达到最小值,然后在极端碎片化下部分*恢复*。我们将此称为文本恐怖谷(Text Uncanny Valley)(Mori,1970 (https://arxiv.org/html/2605.07186#bib.bib15); Seyama 和 Nagayama,2007 (https://arxiv.org/html/2605.07186#bib.bib16)):既不完全自然也不均匀碎片化的文本使模型处于一种无序的中间状态,此时性能最差。

我们在三个领域评估了八个模型变体。三个家族,Gemini 3.0 Flash(Google,2025 (https://arxiv.org/html/2605.07186#bib.bib23))、GPT-5.2(OpenAI,2025 (https://arxiv.org/html/2605.07186#bib.bib34))和 Claude 4.5 Haiku(Anthropic,2025 (https://arxiv.org/html/2605.07186#bib.bib25)),在两个任务上均一致表现出 U 形曲线,是后续分析的重点。性能在高碎片化下*恢复*而非继续退化,排除了简单的“更多噪音,更差性能”的解释,并指向模型处理文本方式的转变。随后我们将此形式化为*两阶段假说*:LLM 对近似正常的文本依赖词级别处理,对严重碎片化的文本回退到字符级别处理,山谷标志着两者之间的不稳定过渡。四项实验和一项词元化熵分析检验了这一解释。

我们的贡献可以概括为四个方面:

- •基准测试。一个受控的 `word_fragmentation_rate` 扰动框架,在十一个级别上从干净文本到完全字符分离的文本扫描词边界腐败,在两个跨度匹配任务和三个领域上进行评估。
- •现象。八个模型家族中的三个,Gemini 3.0 Flash、GPT-5.2 和 Claude 4.5 Haiku,在两个任务上均表现出一致的 U 形性能曲线,我们将其命名为文本恐怖谷。
- •解释。我们提出了两阶段假说并提供了相互印证证据:➀ 上下文学习(ICL)无法挽救谷底性能;➁ 正则化碎片化减少了 U 形效应,而词间空格操纵并未引发该效应;➂ 词元化熵在 F1 最小值之前达到峰值;➃ 数学推理对照实验显示,在没有跨文档对齐的情况下,该效应减弱。
- •意义。适度的词边界腐败(OCR 伪影的典型级别)比极端腐败更具破坏性,这是一种在干净文本基准中不可见的故障模式。

## 2 相关工作

缺失检测与 NIAH。Fu 等人(2025 (https://arxiv.org/html/2605.07186#bib.bib1))确立 LLM 在干净文本上的缺失检测会失败,尽管在 NIAH 检索(Kamradt,2023 (https://arxiv.org/html/2605.07186#bib.bib9); Hsieh 等人,2024 (https://arxiv.org/html/2605.07186#bib.bib33))上得分近乎完美,但 Micro-F1 仅约为 70%。我们复制并扩展了他们对碎片化文本的评估。Jain 和 Garimella(2026 (https://arxiv.org/html/2605.07186#bib.bib2))以及 Ming 等人(2025 (https://arxiv.org/html/2605.07186#bib.bib3))研究了缺失信息在语义上定义的相关但不同的问题;两者均未考察文本级腐败。

LLM 对文本扰动的鲁棒性。Singh 等人(2024 (https://arxiv.org/html/2605.07186#bib.bib5))和 Zhuo 等人(2025 (https://arxiv.org/html/2605.07186#bib.bib6))在 OCR 错误、拼写错误和字符级扰动下对 LLM 进行基准测试;两者均发现模型能容忍轻微噪音,但在更严重的腐败下性能下降。Sclar 等人(2024 (https://arxiv.org/html/2605.07186#bib.bib7))显示间距变化可使准确率改变高达 76 个点。Pawar 等人(2025 (https://arxiv.org/html/2605.07186#bib.bib8))研究了词元化器引起的单词分裂。我们的关键区别: prior work 报告的是单调退化;我们通过连续速率扫描揭示了一种*非单调*模式,其中中等碎片化比极端碎片化更差,从而暴露出离散评估所遗漏的恢复机制。

LLM 中的其他 U 形曲线。Liu 等人(2024 (https://arxiv.org/html/2605.07186#bib.bib10))记录了随信息*位置*变化的 U 形曲线;我们的曲线源于单词内碎片化,是不同的轴和机制。

词元化与词边界。Alqahtani 等人(2026 (https://arxiv.org/html/2605.07186#bib.bib12))认为词元化是核心建模决策;Chai 等人(2024 (https://arxiv.org/html/2605.07186#bib.bib28))显示 LLM 在 BPE(Sennrich 等人,2016 (https://arxiv.org/html/2605.07186#bib.bib32))下对排版变化仍然脆弱——我们将这一模式扩展到具有非单调效应的连续单词内空格插入。

噪音下的上下文学习。Gao 等人(2024 (https://arxiv.org/html/2605.07186#bib.bib13))和 Jiao 等人(2026 (https://arxiv.org/html/2605.07186#bib.bib14))显示腐败的演示可能会损害或误导 ICL,这为我们观察到的 ICL 无法挽救谷底性能提供了依据。

## 3 方法:受控词边界碎片化

### 3.1 扰动设计

我们通过向单词内插入空格来扰动文档。对于每个*连续非空格字符序列*,我们遍历其*单词内槽位*(相邻字符之间的位置)。长度为 k 的字符序列有 k-1 个槽位;cat 有 2 个槽位,因此在第一个位置插入会生成 c at,此时 `word_fragmentation_rate`=1/2。在每个槽位,我们以概率 p ∈ [0,1] 插入空格。扰动的程度由**单词碎片化率**(`word_fragmentation_rate`)衡量,定义为:

`word_fragmentation_rate` = 实际插入的空格数 / 单词内槽位总数
(1)

由于插入是随机的,测量的 `word_fragmentation_rate` 可能与 p 略有不同,但在实践中差异可以忽略不计。111由于在所有实验中测量的 `word_fragmentation_rate` 与 p 几乎相同,我们使用 p 表示碎片化级别,但保留 `word_fragmentation_rate` 作为 x 轴标签以便标记。我们在十一个级别上扫描 `word_fragmentation_rate`:{0.0, 0.1, 0.2, ..., 1.0}。附录 E.3 (https://arxiv.org/html/2605.07186#A5.SS3) 说明了该效应对其代表性 `word_fragmentation_rate` 级别下法律文档节选的影响。

两项设计特性使此扰动适合受控实验:

- •连续性。`word_fragmentation_rate` 从 0.0(干净输入)扫描到 1.0(每对字符由空格分隔),提供了词边界完整性与模型能力之间相互作用的细粒度视图。
- •可分离性。目标种子(哪些行被省略或插入)和碎片化种子(在哪里插入空格)独立控制。目标掩码在所有碎片化速率下固定,确保任务难度不与扰动水平共变。

### 3.2 数据集

我们在三个领域进行评估,每个领域具有不同的文本特征。

法律文档。我们使用 CUAD-QA(Hendrycks 等人,2021 (https://arxiv.org/html/2605.07186#bib.bib18)),这是来自 EDGAR 申报系统的专家标注的商业合同。密集的自然语言散文使这些文档对词边界破坏高度敏感。

GitHub 拉取请求。我们使用与 Fu 等人(2025 (https://arxiv.org/html/2605.07186#bib.bib1))相同的语料库:包含长无空格标识符运行(例如,`getUserByEmailAndPassword`)的代码差异,使得文本在任何扰动之前结构上非常密集。

数学推理(GSM8K)。我们从 GSM8K(Cobbe 等人,2021 (https://arxiv.org/html/2605.07186#bib.bib17))中抽取问题,这是一个由 OpenAI 创建的包含 8,500 个小学数学应用题及其逐步解决方案的数据集。222https://huggingface.co/datasets/openai/gsm8k为了创建足够长的文档以挑战现代 LLM,我们将每个文档拼接 80 个问题,其体积约相当于两周的学生作业。每个问题及其解决方案被视为由句号和换行符分隔的行序列。生成的文档结构在附录 E.1 (https://arxiv.org/html/2605.07186#A5.SS1) 中说明。

由于我们的评估协议计算成本高昂(详见附录 A (https://arxiv.org/html/2605.07186#A1)),我们每个领域采样 100 个文档。

### 3.3 评估任务

我们在两个任务上评估词边界碎片化,这两个任务都要求文档版本之间进行精确的跨度级匹配。

缺失检测。遵循 Fu 等人(2025 (https://arxiv.org/html/2605.07186#bib.bib1)),每个实例提供原始文档和删除了某些行的版本;模型必须准确识别缺失了哪些行。此任务需要精确的词汇对齐,对单词内干扰高度敏感。提示模板见附录 E.2 (https://arxiv.org/html/2605.07186#A5.SS2)。

NIAH 风格插入检测。每个实例提供原始文档和插入了额外行的版本;模型必须准确识别添加了哪些行。这改编了经典的 NIAH 设置(Kamradt,2023 (https://arxiv.org/html/2605.07186#bib.bib9)),要求跨度匹配而非简单检索,并使用相同的 Micro-F1 指标。提示模板和完整实验细节见附录 C (https://arxiv.org/html/2605.07186#A3)。

遵循 Fu 等人(2025 (https://arxiv.org/html/2605.07186#bib.bib1)),两个任务均基于每行不区分大小写的精确匹配使用 Micro-F1 进行评估。该指标有效地惩罚假阳性,提供了比仅召回率更严格的评估。

由于我们发现改变省略/插入速率不会显著改变 U 形曲线,我们将两个任务的省略/插入速率固定为 p=0.1。所有模型均通过各自的 API 进行查询。解析模型响应以提取预测目标行列表,然后与真实值比较以计算 Micro-F1。333完整实现和解析细节提供在附录 E (https://arxiv.org/html/2605.07186#A5) 中。

## 4 文本恐怖谷

### 4.1 主要发现:U 形曲线与文本恐怖谷

我们评估了八个模型变体:DeepSeek-V3(DeepSeek-AI,2024 (https://arxiv.org/html/2605.07186#bib.bib20))、Grok-4.1-Fast(xAI,2025 (https://arxiv.org/html/2605.07186#bib.bib21))、Qwen3-Plus(Yang 等人,2025 (https://arxiv.org/html/2605.07186#bib.bib22))、Gemini 3.0 Flash(标准和思考模式)(Google,2025 (https://arxiv.org/html/2605.07186#bib.bib23))、GPT-5.2(标准和思考模式)(OpenAI,2025 (https://arxiv.org/html/2605.07186#bib.bib34))以及 Claude 4.5 Haiku(Anthropic,2025 (https://arxiv.org/html/2605.07186#bib.bib25))。其中,只有 Gemini 3.0 Flash、GPT-5.2 和 Claude 4.5 Haiku 在两个任务上均表现出清晰且一致的非单调 U 形曲线。Grok-4.1-Fast 显示出大致单调的下降,没有明显的反弹。Qwen3-Plus 表现出不规则的曲线形状,总体性能较差,且 API 响应缓慢、成本高,使其不适合进一步分析。DeepSeek-V3 整体表现不佳,且在高碎片化速率下经常产生无效输出。所有八个变体的完整结果提供在附录 D (https://arxiv.org/html/2605.07186#A4) 中。本文的其余部分集中在一致表现出文本恐怖谷的三个模型家族上。444GPT-5.2 在某些条件下因上下文长度限制对少量文档返回 API 错误;受影响的文档已从相应的平均值中排除。

#### 文本恐怖

相似文章

探索大语言模型在中文抽象语言掌握中的能力边界

arXiv cs.CL

本文介绍了Mouse基准测试,用于评估大语言模型在六个自然语言处理领域的中文抽象语言任务表现。研究表明,尽管当前最先进的模型在上下文理解任务中表现良好,但在这种亚文化网络语言上仍存在重大局限。