文档解析器如何崩溃?审计文档智能中的结构脆弱性

arXiv cs.CL 论文

摘要

本文识别了文档布局分析鲁棒性评估中的足迹偏差,并提出了一种结构感知的审计框架,该框架解耦了探针构建与路径归因,表明小规模的结构定向探针会导致与较大扰动相当的下游性能退化。

arXiv:2605.19309v1 公告类型:新 摘要:文档布局分析(DLA)流水线为检索增强生成、长文档问答及其他文档智能系统提供结构化页面表示,但其鲁棒性评估仍主要集中于区域面积。我们识别了这种足迹偏差,并提出了一种轻量级的输出级审计框架,该框架解耦了探针构建、策略驱动定位和结构感知诊断。该框架结合了块级结构损失率(B-SLR)、粒度感知暴露描述符和路径归因,以分析扰动在何处与布局结构交互以及失败如何传播。在 MinerU 和 PP-StructureV3 上对 1000 页的测试中,受影响面积与扰动引起的 OCR 不稳定性弱相关(R²=0.384/0.110),而 B-SLR 与之高度相关(R²=0.727/0.916)。暴露描述符进一步区分了遮挡主导和拓扑主导的路径,且小规模的结构定向探针导致的下游问答/检索退化与较大足迹的扰动相当。这些结果将 DLA 鲁棒性评估从基于足迹的压力测试转向结构感知的脆弱性审计。
查看原文
查看缓存全文

缓存时间: 2026/05/20 08:25

# 文档解析器为何失效?——文档智能中的结构脆弱性审计

来源:https://arxiv.org/html/2605.19309

陈悦¹,\*,王逸豪¹,\*,唐子逸¹,王可泽¹,†  
¹中山大学  
\*同等贡献。  
†通信作者:[email protected] (https://arxiv.org/html/2605.19309v1/mailto:[email protected])

###### 摘要

文档布局分析(DLA)管道为检索增强生成、长文档问答及其他文档智能系统提供结构化的页面表示,然而其鲁棒性评估在很大程度上仍停留在以面积为中心的层面。我们识别出这种**足迹偏差**,并提出一个轻量级的输出级审计框架,将探针构建、策略驱动定位与结构感知诊断解耦。该框架结合了**块级结构损失率**(B-SLR)、粒度感知暴露描述符以及路径归因,用以分析扰动与布局结构交互的位置以及故障如何传播。在 MinerU 和 PP-StructureV3 上对 1000 页的实验表明,受影响面积与扰动引起的 OCR 不稳定性呈弱相关(\(R^2=0.384/0.110\)),而 B-SLR 与其吻合得更为紧密(\(R^2=0.727/0.916\))。暴露描述符进一步区分了以遮挡为主和以拓扑为主的路径,且小范围的结构靶向探针所引起的下游 QA/检索性能下降与更大足迹的扰动相当。这些结果将 DLA 鲁棒性评估从基于足迹的压力测试转向结构感知的脆弱性审计。

# 文档解析器为何失效?——文档智能中的结构脆弱性审计

陈悦¹,\*,王逸豪¹,\*,唐子逸¹,王可泽¹,†  
¹中山大学  
\*同等贡献。  
†通信作者:[email protected] (https://arxiv.org/html/2605.19309v1/mailto:[email protected])

## 1 引言

文档布局分析(DLA)将视觉组织的页面转换为文本、表格、图形及其他布局元素的结构化表示。这些表示作为文档智能系统的结构性输入,例如面向视觉丰富文档的检索增强生成(Ueda 等,2026 (https://arxiv.org/html/2605.19309#bib.bib28))、财务文档推理(Zhao 等,2024a (https://arxiv.org/html/2605.19309#bib.bib29))以及医疗记录理解(Cottet 等,2026 (https://arxiv.org/html/2605.19309#bib.bib30))。此阶段的错误——包括边界损坏、虚假块合并以及输出错位——会以受损上下文、错配证据和不可靠的下游预测的形式传播。尽管在干净基准和真实评估场景上取得了进展,DLA 鲁棒性仍通常通过腐败下的总体退化程度来评估。现有协议常以全局腐败幅度或受影响像素足迹来参数化扰动严重性,同时通过 CER 或检测精度等指标报告损伤(Hendrycks 和 Dietterich,2019 (https://arxiv.org/html/2605.19309#bib.bib9);Michaelis 等,2020 (https://arxiv.org/html/2605.19309#bib.bib15);Chen 等,2024 (https://arxiv.org/html/2605.19309#bib.bib2);Du 等,2025 (https://arxiv.org/html/2605.19309#bib.bib5);Zhou 等,2026 (https://arxiv.org/html/2605.19309#bib.bib27))。此类评估能告诉我们性能是否下降,但很少揭示解析为何或如何结构性失效。此外,依赖标注的诊断方法对无标注文档集合的轻量级审计支持有限。

参见图注

**图 1:** DLA 鲁棒性评估中的足迹偏差:(a) 大面积扰动可能仅引起有限错误,而 (b) 小范围结构探针可能引发更大的解析失败。

我们称其核心局限性为**足迹偏差**:即倾向于仅根据像素足迹推断扰动严重性。如图 1 (https://arxiv.org/html/2605.19309#S1.F1) 所示,当小足迹的结构探针触及敏感布局区域时,可能产生不成比例的破坏。因此,鲁棒性不仅取决于页面被扰动的面积大小,还取决于扰动落在何处,以及故障如何通过解析过程传播。这一差距促使人们对 DLA 鲁棒性采取更具诊断性的视角。由于自然发生的解析故障难以直接隔离与比较,我们采用受控扰动作为真实页面上的反事实探针。我们不仅仅询问输出质量是否下降,而是提出三个更细致的问题:(Q1) 结构身份在何处丢失;(Q2) 在何种粒度下扰动暴露程度能预测失效;(Q3) 哪条路径——直接物理遮挡还是拓扑级破坏——驱动了退化。

为解决这一诊断问题,我们提出一个轻量级的输出级**三方审计框架**,将扰动生成与结构诊断解耦。它定义了一个共享探针空间和一个策略空间,用于在不修改被审计解析器的情况下进行可归因的探针选择,并定义了一个诊断空间,将可观测的终端信号与结构感知的失效分析相结合。特别地,**块级结构损失率**(B-SLR)比较干净与扰动后的解析器输出,从而无需人工元素标注即可进行结构损失审计。在两个代表性解析器上的实验表明,结构诊断指标与扰动引起的 OCR 不稳定性及下游 QA/检索故障的对齐程度,比基于足迹的严重性指标更为可靠。综合而言,这些结果将 DLA 鲁棒性评估从基于足迹的压力测试转变为面向文档智能管道的结构感知脆弱性审计。

总之,我们的贡献有三方面:

- • 我们识别出**足迹偏差**,表明像素足迹是 DLA 鲁棒性评估中结构损伤的不可靠代理。
- • 我们提出一个轻量级三方审计框架,将探针构建、策略驱动定位和结构感知诊断相分离。
- • 我们用 B-SLR、暴露描述符和路径归因实例化该框架,表明结构诊断指标更能对齐 OCR 不稳定性及下游 QA/检索故障。

## 2 相关工作

##### 文档解析鲁棒性与下游文档智能。

鲁棒性评估已从通用腐败套件转向文档特定的解析设置。ImageNet-C 建立了腐败 × 严重性范式(Hendrycks 和 Dietterich,2019 (https://arxiv.org/html/2605.19309#bib.bib9)),随后扩展到 Pascal-C 和 COCO-C 等检测基准(Michaelis 等,2020 (https://arxiv.org/html/2605.19309#bib.bib15))。在文档解析领域,RoDLA 研究了 DLA 模型的文档特定腐败(Chen 等,2024 (https://arxiv.org/html/2605.19309#bib.bib2)),而 DocPTBench 和 Real5-OmniDocBench 将评估扩展到拍照和物理采集的文档(Du 等,2025 (https://arxiv.org/html/2605.19309#bib.bib5);Zhou 等,2026 (https://arxiv.org/html/2605.19309#bib.bib27))。与此同时,文档智能研究表明 OCR 和布局质量会影响检索增强生成、财务文档推理和医疗文档理解(Ueda 等,2026 (https://arxiv.org/html/2605.19309#bib.bib28);Zhao 等,2024a (https://arxiv.org/html/2605.19309#bib.bib29);Cottet 等,2026 (https://arxiv.org/html/2605.19309#bib.bib30);Zhang 等,2025 (https://arxiv.org/html/2605.19309#bib.bib31))。然而,现有评估仍主要围绕腐败类型、采集条件或下游分数组织。它们能告诉我们文档管道是否退化,但很少解释是哪些解析器级别的结构变化驱动了这种退化。我们的工作通过诊断 DLA 输出内部的结构失效机制,并追踪其对下游 QA/检索的影响,补充了这些评估。

##### 扰动足迹与放置敏感性。

视觉扰动通常通过幅度、受影响面积或局部补丁预算来控制。Cutout 和 Random Erasing 将擦除面积作为关键增强强度(DeVries 和 Taylor,2017 (https://arxiv.org/html/2605.19309#bib.bib4);Zhong 等,2020 (https://arxiv.org/html/2605.19309#bib.bib26)),而 Augraphy 等文档增强工具向文档图像暴露视觉和空间扰动参数(Groleau 等,2023 (https://arxiv.org/html/2605.19309#bib.bib7))。基于补丁的鲁棒性研究进一步表明位置和组成至关重要:对抗性补丁在小的空间预算下仍可保持有效性(Brown 等,2017 (https://arxiv.org/html/2605.19309#bib.bib32)),PatchMap 揭示了放置热点(Kimhi 等,2025 (https://arxiv.org/html/2605.19309#bib.bib10)),而 IMPACT 联合优化了补丁形状、位置、数量和内容(Yang 等,2026 (https://arxiv.org/html/2605.19309#bib.bib22))。这些工作表明扰动强度不仅取决于足迹,还取决于扰动与视觉结构交互的位置和方式。我们的工作将此见解带入文档解析领域,其中小扰动在与布局结构交互时可能产生不成比例的破坏。

##### 超越整体腐败的视觉敏感性。

更广泛的鲁棒性文献也表明,模型敏感性不能仅通过单一全局腐败分数来充分刻画。已有研究将鲁棒性与频率依赖性学习、傅里叶基敏感性、纹理偏差以及习得特征几何联系起来(Rahaman 等,2019 (https://arxiv.org/html/2605.19309#bib.bib17);Tsuzuku 和 Sato,2019 (https://arxiv.org/html/2605.19309#bib.bib18);Geirhos 等,2019 (https://arxiv.org/html/2605.19309#bib.bib6);Yin 等,2019 (https://arxiv.org/html/2605.19309#bib.bib23);Wang 等,2020 (https://arxiv.org/html/2605.19309#bib.bib19);Li 等,2025 (https://arxiv.org/html/2605.19309#bib.bib13))。我们并不将这些机制直接用作文档解析失效的解释。相反,它们激发一种诊断立场:鲁棒性评估应识别哪些视觉-结构因素驱动目标系统的失效,而不是将敏感性简化为单一的全局腐败分数。

参见图注

**图 2:** 提出的三方脆弱性审计框架概览,连接了受控扰动生成、策略空间探针选择以及诊断审计。

## 3 问题设置

设 \(\mathcal{M}\) 表示一个文档布局分析(DLA)系统,它将文档图像 \(I\) 映射为结构化的解析输出:

\[
E = \mathcal{M}(I) = \{x_i\}_{i=1}^N,
\tag{1}
\]

其中每个解析元素表示为 \(x_i = (b_i, c_i, t_i)\),包括边界框 \(b_i\)、类别标签 \(c_i \in \mathcal{C}_5\) 以及识别文本 \(t_i\)。规范标签空间 \(\mathcal{C}_5\) 包含五种布局类型:文本、标题、表格、图形和公式。

给定一个探针配置 \(P\)(详见第 4 节 (https://arxiv.org/html/2605.19309#S4)),我们应用视觉扰动算子 \(\mathbb{P}_P\) 并得到:

\[
I' = \mathbb{P}_P(I), \quad E_{\mathrm{adv}} = \mathcal{M}(I').
\tag{2}
\]

审计评估干净与扰动解析行为之间的差异:

\[
\mathcal{A}(E, E_{\mathrm{adv}}; P, \mathcal{Y}) = (\Delta, \mathcal{R}),
\tag{3}
\]

其中 \(\mathcal{Y}\) 表示可选的基准参考,例如可用时的布局或文本真值标注。终端组件 \(\Delta\) 记录外部可见的退化信号,如 OCR 字符错误率(CER)或检测 mAP 下降,必要时使用 \(\mathcal{Y}\) 进行计算。这些信号将审计置于基准设置中,但并非定义结构性组件 \(\mathcal{R}\) 的前提条件;\(\mathcal{R}\) 诊断结构身份在何处丢失、扰动暴露在何种粒度下可预测失效,以及故障通过哪条路径发生。在我们的审计中,CER 是针对干净解析器输出计算的,用于衡量扰动引起的 OCR 不稳定性,而非绝对 OCR 正确性;检测退化通过干净与扰动解析器输出之间的每图像 [email protected] 下降来衡量。传统鲁棒性评估主要报告 \(\Delta\)。通过引入 \(\mathcal{R}\),我们的公式将目标从测量总体退化转向诊断扰动对解析过程的结构性影响。这种“扰动-比较”公式是轻量级的:它无需重新训练解析器,仅需在现有页面的受控扰动上重新运行同一解析器。

## 4 审计框架

### 4.1 三方审计框架

如图 2 (https://arxiv.org/html/2605.19309#S2.F2) 所示,我们用一个三方框架实例化审计公式:

\[
\mathcal{F} = (\mathcal{S}, \Pi, \mathcal{D}),
\tag{4}
\]

其中 \(\mathcal{S}\) 是共享探针空间,\(\Pi\) 是选择探针的策略空间,\(\mathcal{D}\) 是用于审计由此产生的解析变化的诊断空间。这种分解将“可应用何种扰动”“如何为文档选择它们”以及“如何衡量它们的效果”分离开来,使得现有解析器可以通过更换探针或策略进行审计,而无需修改解析器本身。

根据式 (3) (https://arxiv.org/html/2605.19309#S3.E3),诊断空间为:

\[
\mathcal{D} = \Delta \times \mathcal{R},
\tag{5}
\]

其中 \(\Delta\) 表示终端退化信号,\(\mathcal{R}\) 表示结构感知的诊断信息。在图 2 (https://arxiv.org/html/2605.19309#S2.F2) 中,左侧通过 \(\mathcal{S}\) 和 \(\Pi\) 实例化受控扰动,右侧通过 \(\mathcal{D}\) 实例化结构诊断。

### 4.2 受控扰动

扰动端的设计是为了使自然纠缠的故障可归因,而不仅仅是可观测。我们将诱导故障的视觉交互抽象到共享探针空间 \(\mathcal{S}\) 中,并让不同策略从中进行选择,这样观测到的损伤差异可以归因于选择逻辑,而非搜索空间的变化。每个探针配置 \(P \in \mathcal{S}\) 表示为:

\[
P = \langle \mathcal{H}, \mathcal{V}, \mathcal{B}, \mathcal{T} \rangle,
\tag{6}
\]

其中 \(\mathcal{H}\) 表示几何属性,\(\mathcal{V}\) 表示视觉外观,\(\mathcal{B}\) 表示组合行为,\(\mathcal{T}\) 表示放置策略。详细的探针定义和参数范围见附录 A.1 (https://arxiv.org/html/2605.19309#A1.SS1)。

给定共享探针空间,策略 \(\pi \in \Pi\) 将可用的文档上下文 \(c\) 映射到选定的探针:

\[
\pi: \; c \mapsto \hat{P} \in \mathcal{S}.
\tag{7}
\]

不同策略使用不同级别的上下文,范围从随机和基于规则的选择到 LLM 和 VLM 引导的定位。实现细节推迟到附录 A.3 (https://arxiv.org/html/2605.19309#A1.SS3)。

### 4.3 诊断空间

诊断空间 \(\mathcal{D}\) 将“判断”与“解释”分离开来。终端组件 \(\Delta\) 记录外部可见的退化信号,而结构组件 \(\mathcal{R}\) 则诊断退化如何在解析过程内部产生:

\[
\Delta = \bigl( \Delta_{\mathrm{ocr}}, \Delta_{\mathrm{det}} \bigr), \quad \mathcal{R} = \bigl( \mathcal{R}_{\mathrm{fail}}, \mathcal{R}_{\mathrm{grad}}, \mathcal{R}_{\mathrm{path}} \bigr).
\tag{8}
\]

我们以 OCR 字符错误率(CER)实例化 \(\Delta_{\mathrm{ocr}}\),以检测 mAP 下降实例化 \(\Delta_{\mathrm{det}}\)。

相似文章

面向工业视觉检测的架构感知解释审计

arXiv cs.LG

本文针对工业视觉检测提出了一种架构感知的解释审计协议,通过晶圆图和异常检测数据集上的实验证明,解释方法的保真度受其与模型原生决策机制的结构兼容性约束。

为什么 Codex Security 不包含 SAST 报告

OpenAI Blog

OpenAI 解释了为什么 Codex Security 刻意避免从 SAST 报告开始,而是直接分析仓库架构并验证发现。该方法解决了核心挑战:最困难的漏洞涉及安全检查是否在整个转换链中实际起作用,而不仅仅是数据流跟踪。