修订RVL-CDIP:量化错误与测试-训练重叠

arXiv cs.CL 论文

摘要

本文识别并纠正了RVL-CDIP文档分类数据集中的标签错误和测试-训练重叠,发现12%的标签错误和35%的重复。修正后提高了分类准确率和分布外泛化能力。

arXiv:2606.31446v1 公告类型:新论文 摘要:RVL-CDIP是一个用于基准测试文档分类器的流行数据集。然而,该数据集包含大量标签错误以及不可忽视的测试-训练重叠,这两者都可能影响模型性能指标。在本文中,我们通过(1)发现并修复标签错误,以及(2)检测并处理测试-训练重叠来解决这两个问题。我们生成了几个带有标签错误和测试-训练重叠修复的RVL-CDIP变体,并在这些新的RVL-CDIP变体上对文档分类性能进行基准测试。我们对RVL-CDIP的严格分析发现,该语料库包含12\%的标签错误和大约35%的测试-训练重复。去除错误时,分类准确率有所提升,但去除重复时准确率下降。我们还评估了模型在RVL-CDIP-N(一个分布外基准测试)上的表现,发现使用纠正后的数据进行训练显著提高了分布外泛化能力,监督模型的准确率平均提升8.1个百分点,最大提升达14个百分点。
查看原文
查看缓存全文

缓存时间: 2026/07/01 05:34

# 修订 RVL-CDIP:量化标签错误与测试-训练重叠
来源:https://arxiv.org/html/2606.31446

Attila Nagy¹、Sam Desai²、Cyrus Desai²、Nicole C. Lima²、Yixin Yuan²、Siddharth Betala¹,³、Kaushal K. Prajapati¹、Jamiu T. Suleiman¹、Sharad Duwal¹ 和 Kevin Leach⁴

¹ML Collective
²密歇根大学
³印度理工学院马德拉斯分校
⁴范德堡大学

(2026 年)

**摘要**

RVL-CDIP 是文档分类器基准测试中广泛使用的数据集。然而,该数据集包含大量标签错误以及不可忽视的测试-训练重叠问题,这两者都可能影响模型性能指标。本文通过以下方式解决这两个问题:(1) 发现并修正标签错误;(2) 检测并处理测试-训练重叠。我们生成了多种修正了标签错误和测试-训练重叠的 RVL-CDIP 变体,并在这些新的 RVL-CDIP 变体上对文档分类性能进行了基准测试。我们对 RVL-CDIP 的严格分析发现,语料库包含 12% 的标签错误和大约 35% 的测试-训练重复。在移除错误后,修复工作带来了分类准确率的提升,但在移除重复样本后准确率有所下降。我们还评估了模型在 RVL-CDIP-N(一个分布外基准测试)上的表现,发现使用纠错数据训练能够显著提升 OOD 泛化能力,监督式模型平均准确率提升 8.1 个百分点,最高可达 14 个百分点。

文档分类、数据质量、基准评估

††版权:ACM 授权
††期刊年份:2026
††DOI:10.1145/3820755.3821486
††会议:第 26 届 ACM 文档工程研讨会,2026 年 8 月 25–28 日,瑞士弗里堡
††ISBN:978-1-4503-XXXX-X/2026/XX
††CCS:计算方法学 → 文档分析与识别
††CCS:计算方法学 → 神经网络

## 1. 引言

RVL-CDIP 文档分类语料库(Harley 等人,2015 (https://arxiv.org/html/2606.31446#bib.bib9))被誉为评估文档分类模型的*事实上的*标准基准(Larson 等人,2023 (https://arxiv.org/html/2606.31446#bib.bib6))。事实上,现代的文档理解模型,如 LayoutLMv3(Huang 等人,2022 (https://arxiv.org/html/2606.31446#bib.bib56))、Donut(Kim 等人,2022 (https://arxiv.org/html/2606.31446#bib.bib7))和 UDOP(Tang 等人,2023 (https://arxiv.org/html/2606.31446#bib.bib41))等,通常仅以 RVL-CDIP 作为基准来建立文档分类的性能分数。尽管如此,最近的研究估计,RVL-CDIP 数据集中存在大量标签错误,并且在其测试集和训练集之间也存在大量“数据泄露”——重复和近似重复的样本(Larson 等人,2023 (https://arxiv.org/html/2606.31446#bib.bib6))(参见图 1 (https://arxiv.org/html/2606.31446#S1.F1) 中这些现象的示例)。这两个不良特性对报告的高性能分数提出了质疑,并促使我们对在 RVL-CDIP 上训练和评估模型时,广泛存在的标签错误和测试-训练重叠的影响进行严格调查。

[参见图注]

图 1. 示例标签错误(顶行)和测试-训练近似重复对(底行,来自“发票”类别)。“简历”文档的正确标签是“科学出版物”,“信件”的正确标签是“备忘录”。

[参见图注]

图 2. 选自 RVL-CDIP 16 个类别的示例文档。

在本文中,我们旨在识别并修正 RVL-CDIP 中发现的标签错误,并检测和处理数据集中观察到的测试-训练数据泄露问题。我们手动审查了 RVL-CDIP,发现大量标签错误:我们的分析表明,大约 12% 的 RVL-CDIP 标签有误,其中“信件”类别的错误率超过 30%。然后,我们应用一种过滤和细化方法来检测测试-训练重叠,发现大约 35% 的 RVL-CDIP 测试集在训练集中存在(近似)重复对应项。我们解决了这些数据质量问题,并创建了几个用于基准测试的“清洗版”RVL-CDIP。这些新版本的 RVL-CDIP 已修正和清洗,并最大限度地减少了测试-训练重复。借助这些新的清洗版 RVL-CDIP,我们能够研究标签错误和测试-训练重叠对多种文档分类模型(包括基于 Transformer 的模型和零样本模型)的影响。我们发现,移除标签错误后模型性能提升,但移除重复样本后性能下降。我们还评估了模型在 RVL-CDIP-N(Larson 等人,2022 (https://arxiv.org/html/2606.31446#bib.bib40))上的表现,这是一个针对 RVL-CDIP 的分布外 (OOD) 基准测试,以评估使用更清洁的数据训练是否能改善模型在 RVL-CDIP 烟草行业领域之外的泛化能力。我们公开提供清洗后的 RVL-CDIP 版本,以帮助在更清洁、更可靠的数据上对文档分类模型进行基准测试。¹¹¹https://rvlcdip-errors.com/

表 1. RVL-CDIP 的数据集统计。按类别划分的训练集、验证集和测试集大小。

| 类别 | 训练集 | 验证集 | 测试集 |
|---|---|---|---|
| 广告 | 19,963 | 2,522 | 2,515 |
| 预算 | 20,010 | 2,485 | 2,505 |
| 电子邮件 | 19,954 | 2,530 | 2,505 |
| 文件夹 | 20,022 | 2,451 | 2,527 |
| 表格 | 19,957 | 2,537 | 2,506 |
| 手写 | 20,034 | 2,434 | 2,532 |
| 发票 | 19,947 | 2,576 | 2,477 |
| 信件 | 20,106 | 2,430 | 2,464 |
| 备忘录 | 19,975 | 2,533 | 2,492 |
| 新闻文章 | 20,011 | 2,526 | 2,463 |
| 演示文稿 | 20,043 | 2,468 | 2,489 |
| 问卷 | 20,048 | 2,517 | 2,435 |
| 简历 | 20,037 | 2,426 | 2,537 |
| 科学出版物 | 19,902 | 2,526 | 2,571 |
| 科学报告 | 19,994 | 2,508 | 2,498 |
| 规格说明 | 19,997 | 2,531 | 2,472 |

本文是一项*基准审核*:我们不提出新的模型或训练流程。相反,我们的贡献在于首次对文档分类社区主要基准中的数据质量进行详尽、基于实证的分析,并量化这些问题对报告模型性能的具体影响。这类论文沿袭了先前揭示自然语言处理、计算机视觉和文档理解基准中类似问题的工作传统(参见第 2 节 (https://arxiv.org/html/2606.31446#S2))。

总而言之,本文的主要贡献如下:

1.  (1) 我们对 RVL-CDIP 进行了首次详尽的、包含 40 万份文档的审查,发现大约 12% 的数据集标签有误——这一发现对该基准所做的每一项性能声明均有影响。
2.  (2) 我们开发了一种检测测试-训练重叠的方法,发现约 35% 的 RVL-CDIP 测试集在训练集中存在(近似)重复样本。
3.  (3) 我们创建了不含标签错误和测试-训练重复的清洗版 RVL-CDIP,并重新对多个文档分类模型进行了基准测试。
4.  (4) 我们在分布外基准测试 RVL-CDIP-N 上评估了我们的模型,以评估训练数据质量对 OOD 泛化的影响。

## 2. 背景与相关工作

RVL-CDIP 被广泛用于对文档页面分类器进行基准测试。Larson 等人(Larson 等人,2023 (https://arxiv.org/html/2606.31446#bib.bib6))称其为文档页面分类的*事实上的*标准基准。当我们调查了 30 篇使用 RVL-CDIP 对文档分类系统或模型进行基准测试的论文时,大约 95% 的论文*仅*使用 RVL-CDIP(或其子集)进行性能评估。广泛类型的模型都使用了 RVL-CDIP 来对分类性能进行基准测试,包括基于图像的模型、基于文本的模型、多模态模型、零样本模型以及大型语言模型。因此,RVL-CDIP 不仅仅是最流行的文档分类基准——它实际上对于该任务是唯*一*具有同等规模的标准化基准,这使得对其质量进行严格审核对于文档理解社区至关重要。

RVL-CDIP 的标准基准测试设置是 16 类分类。RVL-CDIP 包含 400,000 个样本,大致均匀分布在 16 个类别中。这些类别及其数量列于表 1 (https://arxiv.org/html/2606.31446#S1.T1);RVL-CDIP 的样本显示在图 2 (https://arxiv.org/html/2606.31446#S1.F2) 中。引入 RVL-CDIP 的 Harley 等人(Harley 等人,2015 (https://arxiv.org/html/2606.31446#bib.bib9))并未对这 16 个类别提供定义或区分标准,但指出来源集合“存在缺失或错误的标签”,并承认“最终类别并非完全区分明确”。缺乏官方类别定义意味着研究界一直在对一个没有权威标准定义每个类别内容的数据集进行基准测试——我们在第 3 节 (https://arxiv.org/html/2606.31446#S3) 中的标注工作直接解决了这一空白。

在监督学习设置中,模型在 RVL-CDIP 的训练集上进行训练,并在测试集上进行评估以确定准确率。在零样本设置中(例如,使用 LLM 或零样本图像分类器),模型仅在 RVL-CDIP 的测试集上进行评估。据我们所知,目前最先进的模型是 LayoutLLM,报告的准确率为 98.8%(Fujitake,2024 (https://arxiv.org/html/2606.31446#bib.bib33)),紧随其后的是 EAML(97.70%;Bakkali 等人,2021 (https://arxiv.org/html/2606.31446#bib.bib51))和 Bi-VLDoc(97.17%;Luo 等人,2025 (https://arxiv.org/html/2606.31446#bib.bib50))。

表 2. RVL-CDIP 的标签错误细分。总体而言,我们确定 RVL-CDIP 包含大约 12% 的标签错误。

| 类别 | 未知 | 错误 | 混肴 | 任何错误 | 不确定 | 任何错误 + 不确定 |
|---|---|---|---|---|---|---|
| 广告 | 7.51% | 7.51% | 0.60% | 9.74% | 1.50% | 11.24% |
| 预算 | 8.87% | 8.48% | 3.94% | 21.29% | 1.66% | 22.94% |
| 电子邮件 | 8.24% | 1.27% | 0.12% | 9.63% | 0.50% | 10.13% |
| 文件夹 | 3.85% | 0.16% | 0.52% | 4.53% | 0.08% | 4.61% |
| 表格 | 10.63% | 3.62% | 6.10% | 20.35% | 1.04% | 21.39% |
| 手写 | 10.51% | 2.14% | 1.03% | 13.68% | 0.00% | 13.69% |
| 发票 | 6.42% | 8.52% | 0.59% | 15.53% | 1.16% | 16.70% |
| 信件 | 15.75% | 15.51% | 0.42% | 31.68% | 0.04% | 31.72% |
| 备忘录 | 4.23% | 1.72% | 1.12% | 7.08% | 1.91% | 8.99% |
| 新闻文章 | 4.05% | 4.50% | 0.54% | 9.09% | 0.96% | 10.05% |
| 演示文稿 | 4.13% | 1.34% | 0.87% | 6.34% | 2.08% | 8.42% |
| 问卷 | 8.47% | 5.98% | 1.09% | 15.54% | 1.27% | 16.81% |
| 简历 | 1.48% | 0.01% | 0.00% | 1.49% | 0.01% | 1.50% |
| 科学出版物 | 2.15% | 2.39% | 0.00% | 4.54% | 2.72% | 7.26% |
| 科学报告 | 8.07% | 4.09% | 5.17% | 17.32% | 0.45% | 17.77% |
| 规格说明 | 2.29% | 1.13% | 0.74% | 4.16% | 0.24% | 4.40% |
| RVL-CDIP 总计 | 6.67% | 3.84% | 1.49% | 12.00% | 0.98% | 12.98% |

Larson 等人(Larson 等人,2023 (https://arxiv.org/html/2606.31446#bib.bib6))近期的工作指出了 RVL-CDIP 的几个问题,包括数据集中存在标签错误和数据重复。鉴于 RVL-CDIP 在文档理解研究领域作为分类*事实上的*基准所扮演的角色,这些数据质量问题令人担忧,因为它们对最先进性能等某些声明的有效性提出了质疑。在本文中,我们旨在严格衡量 RVL-CDIP 中标签错误和测试-训练重叠的程度,并量化它们对模型性能的影响。通过这种方式,我们的论文与关于分析基准数据集数据质量的相关文献相契合。这些先前工作包括调查文本数据集中的标签问题(例如,(Niu 和 Penn,2019 (https://arxiv.org/html/2606.31446#bib.bib48);Wang 和 Mueller,2019 (https://arxiv.org/html/2606.31446#bib.bib45);Croft 等人,2023 (https://arxiv.org/html/2606.31446#bib.bib37); Rücker 和 Akbik,2023 (https://arxiv.org/html/2606.31446#bib.bib49)))、图像数据集(例如,(Radenovic 等人,2018 (https://arxiv.org/html/2606.31446#bib.bib44);Müller 和 Markert,2019 (https://arxiv.org/html/2606.31446#bib.bib46);Northcutt 等人,2021 (https://arxiv.org/html/2606.31446#bib.bib47);Li 等人,2022a (https://arxiv.org/html/2606.31446#bib.bib36);Agnew 等人,2023 (https://arxiv.org/html/2606.31446#bib.bib35);Gröger 等人,2023 (https://arxiv.org/html/2606.31446#bib.bib61)))和文档数据集(Vu 和 Nguyen,2020 (https://arxiv.org/html/2606.31446#bib.bib38);Larson 等人,2023 (https://arxiv.org/html/2606.31446#bib.bib6);Jungo 等人,2023 (https://arxiv.org/html/2606.31446#bib.bib34);Lim 等人,2024 (https://arxiv.org/html/2606.31446#bib.bib42)),以及调查文本数据集中的数据重复和测试-训练重叠问题(例如,(Allamanis,2019 (https://arxiv.org/html/2606.31446#bib.bib52);Lewis 等人,2021 (https://arxiv.org/html/2606.31446#bib.bib59);Mu 等人,2024 (https://arxiv.org/html/2606.31446#bib.bib60)))、图像数据集(例如,(Barz 和 Denzler,2020 (https://arxiv.org/html/2606.31446#bib.bib53);Laroca 等人,2023 (https://arxiv.org/html/2606.31446#bib.bib54);Wu 等人,2024 (https://arxiv.org/html/2606.31446#bib.bib57)))和文档数据集(例如,(Laatiri 等人,2023 (https://arxiv.org/html/2606.31446#bib.bib43);Larson 等人,2023 (https://arxiv.org/html/2606.31446#bib.bib6)))的基准测试。总的来说,这些工作表明标签错误和测试-训练重叠是基准数据集中的普遍问题,解决这些问题通常会改变对报告模型性能的解释。

特别是,Larson 等人(Larson 等人,2023 (https://arxiv.org/html/2606.31446#bib.bib6))估计 RVL-CDIP 中有 9.7% 的标签错误,且该基准测试集中有 32% 的样本在训练集中存在重复或近似重复。我们目前的工作超越了 Larson 等人(Larson 等人,2023 (https://arxiv.org/html/2606.31446#bib.bib6))的估算,更严格地量化了 RVL-CDIP 中存在的标签错误和测试-训练重叠的数量。我们创建了移除错误和重复样本的清洗版 RVL-CDIP,并计算了模型在这个清洗数据上的性能,这是 Larson 等人(Larson 等人,2023 (https://arxiv.org/html/2606.31446#bib.bib6))未探索的。此外,Larson 等人(Larson 等人,2022 (https://arxiv.org/html/2606.31446#bib.bib40))引入了 RVL-CDIP-N,一个针对 RVL-CDIP 的分布外基准测试,发现使用 RVL-CDIP 训练的模型在其烟草行业领域外泛化能力不佳;我们将 RVL-CDIP-N 纳入我们的评估中。

## 3. 标签错误检测

与通过抽样估算标签错误率的先前工作不同(Larson 等人,2023 (https://arxiv.org/html/2606.31446#bib.bib6)),我们详尽地审查了 RVL-CDIP 中的所有 400,000 份文档以查找标签错误。

[参见图注]图 3. 没有有效真实标签的 RVL-CDIP 标签错误示例。

[参见图注]图 4. 具有多个有效标签的 RVL-CDIP 示例。顶部标签:原始标签;底部标签:替代标签。

### 3.1. 标注

我们的目标是测量 RVL-CDIP 中标签错误的数量。可能有助于实现这一目标的工具包括 CleanLab²²²https://github.com/cleanlab/cleanlab,它使用了置信学习(Northcutt 等人,2021 (https://arxiv.org/html/2606.31446#bib.bib47)),但这种方法在此处不可行,因为 RVL-CDIP 中普遍存在且系统性的标签

相似文章

学习高覆盖判别性简约规则集

arXiv cs.LG

本文介绍了CDPR,一种基于子模最大化学习高准确率且可解释分类规则集的新方法,与现有方法相比,覆盖率提升超过2.5倍。