用于检测AI生成证据的CIFAR合成证据语料库
摘要
本文介绍了CIFAR合成证据语料库,这是一个专门用于在法律背景下检测AI生成证据的数据集。该语料库涵盖多种文档类型和篡改策略,包含结构化元数据,并提供了一个用于评估检测系统的基准套件。
arXiv:2606.07916v1 公告类型:新
摘要:生成模型生成逼真文档的能力日益增强,这给司法系统和法院的证据处理流程带来了直接挑战。在这些场景中,决策越来越依赖于收据、通信记录和行政记录等证据的真实性。与社交媒体或学术环境不同,法律证据文档通常只被微妙地篡改,通过局部小范围编辑在保持整体合理性的同时改变法律含义。然而,自动化检测的进展仍然有限,这主要是由于缺乏适合司法系统要求的训练和评估数据。现有资源要么聚焦于人类面部或自然风景的照片,要么局限于狭义的学术或社交媒体文档类型,无法捕捉真实世界证据数据的结构、多样性或篡改模式。因此,当前的检测系统未必能学习到适合司法系统的有意义信号。我们引入了CIFAR合成证据语料库,旨在在现实且受控条件下对证据验证进行严格评估。该语料库涵盖多种文档系列和多种篡改策略——从小的字段级编辑到完整的文档伪造——并使用多种最先进的生成工具构建。其组织方式系统性地变化了篡改复杂度和生成方法,同时强制训练数据与测试数据之间的源级别分离,以反映现实世界中的泛化挑战。
查看缓存全文
缓存时间: 2026/06/09 08:54
# CIFAR 合成证据语料库:用于检测 AI 生成的证据
来源:https://arxiv.org/html/2606.07916
Kelly McConvey¹,Jalehsadat Mahdavimoghaddam¹,Nima Jamali²,Maksym Taranukhin³,⁴,Sajad Ebrahimi¹,Wentao Zhang²,Karen Eltis⁵,Yuntian Deng²,Maura Grossman²,Vered Shwartz³,⁴,Ebrahim Bagheri¹
¹多伦多大学,²滑铁卢大学,³不列颠哥伦比亚大学,⁴向量研究所,⁵渥太华大学
{s\.ebrahimi, kelly\.mcconvey, jaleh\.mahdavimoghaddam, ebrahim\.bagheri}@utoronto\.ca
{nima\.jamali, w564zhan, maura\.grossman, yuntian}@uwaterloo\.ca
{maksymt, vshwartz}@cs\.ubc\.ca
karen\.eltis@uottawa\.ca
###### 摘要
生成模型生成逼真文档的能力日益增强,这给司法系统和法院的证据工作流程带来了直接挑战。法院的决策越来越依赖于收据、通信记录和行政记录等证据的真实性。与社交媒体或学术环境不同,证据文档往往仅被微妙地修改:进行微小、局部的编辑,在保持整体合理性的同时改变法律含义。然而,自动检测方面的进展仍然有限,这主要是由于缺乏合适的训练和评估数据,特别是符合司法系统需求的数据。现有资源要么聚焦于人脸照片或自然风景,要么局限于范围狭窄的学术或社交媒体文档类型,未能捕捉到真实世界证据数据所特有的结构、多样性或篡改模式。因此,当前的检测系统不一定能学习到适用于司法系统的有意义的信号。
我们引入了 **CIFAR 合成证据语料库**,这是一个旨在在现实且受控的条件下对证据验证进行严格评估的数据集。该语料库涵盖多个文档家族和一系列篡改策略,从小范围的字段级编辑到完整的文档伪造,并使用多种最先进的生成工具构建。其组织方式系统地变化了篡改复杂度和生成方法,同时在训练集和测试集之间强制实施源级别分离,以反映现实世界的泛化挑战。除了规模之外,该数据集还设计用于支持对模型行为的分析,而不仅仅是整体准确率。每个伪造产物都配有结构化元数据,支持受控实验,包括能够探测潜在捷径和虚假相关性的影响。语料库还包含了防止将生成的伪造产物用作真实证据的安全防护措施。我们随数据集提供了一个基准套件,用于评估域内性能、对分布偏移的鲁棒性以及跨生成器的泛化能力。该数据集和评估框架为在高风险法律背景下研究司法系统中证据的可靠性奠定了基础。
## 1 引言
一位拥有前沿模型订阅的自诉人,可以在一个下午之内,生成一张日期回溯且内部算术一致的收据、一封冒充现有线程参与者的电子邮件回复,或者一封带有程序生成信头的完全伪造的商业信函。法院已经开始面对这些后果。在 *Huang v. Tesla*、*Valenti v. Dfinity* 和 *State v. Rittenhouse* 等案件中,美国法院遇到了关于视听材料和书证真实性的争议,但缺乏裁决这些争议的原则性框架 (Delfino, 2023 (https://arxiv.org/html/2606.07916#bib.bib98); Dalal et al., 2025 (https://arxiv.org/html/2606.07916#bib.bib97))。这种风险并非均匀分布。自诉人和资源不足的诉讼当事人,既是最容易遇到伪造提交材料的人群,也是装备最差、难以检测伪造材料的人群——普通人对 AI 生成图像的识别准确率接近 62%,而教育干预措施并未带来可靠的改善 (Bray et al., 2023 (https://arxiv.org/html/2606.07916#bib.bib144); Roca et al., 2025 (https://arxiv.org/html/2606.07916#bib.bib145))。因此,检测基础设施并非法庭工具箱的可选附加项,而是程序公正的前提条件;而此类基础设施所依赖的训练数据尚不存在。
合成内容检测领域的文献已在人脸深度伪造语料库方面投入了大量资源,通过 FaceForensics++ (Rössler et al., 2019 (https://arxiv.org/html/2606.07916#bib.bib95))、Celeb-DF (Li et al., 2020 (https://arxiv.org/html/2606.07916#bib.bib89))、DFDC (Dolhansky et al., 2020 (https://arxiv.org/html/2606.07916#bib.bib83)) 等数据集生成了数百万个标注样本。相比之下,文档伪造资源仅有几千个样本,且几乎全部集中在收据和工资单上 (Tornés et al., 2023 (https://arxiv.org/html/2606.07916#bib.bib82); Sidere et al., 2017 (https://arxiv.org/html/2606.07916#bib.bib81); Artaud et al., 2018 (https://arxiv.org/html/2606.07916#bib.bib62))。除了规模有限之外,现有的公开语料库还受到三个额外弱点的制约,限制了检测器行为的严格分析。**首先**,它们缺乏跨文档类型、篡改策略和生成器家族的协调变化,无法进行受控比较,以确定检测模型是学习了可泛化的伪造信号,还是仅仅利用了特定工具或数据源的伪影。**其次**,它们很大程度上忽略了最可能在法律和证据环境中出现的局部、单字段编辑——即文档绝大部分保持不变,只有小部分被篡改;而现实世界的篡改通常正是这种旨在保持整体完整性以逃避审查的微妙、有针对性的修改。**第三**,它们缺乏防止捷径学习和数据泄露的安全防护措施,使得模型能够依赖非预期的相关性或虚假线索。综合效应是,报告的性能难以解释,并可能夸大真实能力,留有疑问:观察到的准确率是反映了真正的取证理解,还是依赖于数据中偶然模式的依赖。
我们引入了 **CIFAR 合成证据语料库**,这是一个包含合成和真实书证证据的语料库,旨在填补这些空白。该语料库涵盖三个书证证据家族(收据、电子邮件、商业与行政文档)、四个复杂度层级(从单字段编辑到整份文档伪造),以及不同的生成器家族,覆盖了自诉人实际使用的多模态工具(GPT、Gemini、Ideogram),以及一个可端到端审计的开源权重扩散技术栈。这些维度产生了 1,440 件被篡改的伪造产物,以及 1,050 件干净的对照样本,组织成一个完全交叉的域–层级–生成器矩阵。该语料库基于三个设计承诺构建,而先前的文档伪造数据集无法同时满足这些承诺。**首先**,训练集和测试集的划分在源数据集级别而非条目级别进行,确保评估时的任何泛化差距反映的是域偏移,而非条目级别的记忆。**其次**,每个伪造产物都附带一个清单条目,记录生成器、提示词,以及每个条目的身份种子、签名风格和信头种子,使评估者能够通过针对性消融实验,隔离每个潜在捷径对检测器性能的贡献。
总之,本文贡献了一个包含 2,490 个条目的书证证据语料库,该语料库沿受控的域–层级–生成器矩阵组织,这是此前任何公开数据集都未曾覆盖的。
## 2 背景与动机
### 2.1 法律程序中的合成证据
法院已经遇到过大型语言模型生成的虚假案例引用、民事诉讼中证据展示的真实性挑战,以及越来越频繁地援引 Chesney 和 Citron (2018 (https://arxiv.org/html/2606.07916#bib.bib91)) 所称的 **说谎者红利**——即基于伪造已成为可能的理由,恶意否认真实证据为伪造的不良策略。近期的美国案例表明法院对这些争议的准备有多么不足。在 *Huang v. Tesla* 案中,法院驳回了针对真实视频的无根据深度伪造挑战。在 *Valenti v. Dfinity* 案中,法院将类似挑战视为不良诉讼策略而予以驳回。在 *State v. Rittenhouse* 案中,法院要求专家证人证明视频缩放功能并未改变原始镜头。这些判决均未建立在原则性框架之上,而该领域迄今产生的验证工具都不足以满足法院施加的证据、程序及解释要求 (Grimm et al., 2021 (https://arxiv.org/html/2606.07916#bib.bib6); Delfino, 2023 (https://arxiv.org/html/2606.07916#bib.bib98); Dalal et al., 2025 (https://arxiv.org/html/2606.07916#bib.bib97))。
这种风险并非人人平等。自诉人和资源不足的诉讼当事人,越来越依赖免费可用的 LLM 来准备他们原本无力负担的诉状,他们既是最容易无意中提交合成材料的群体,也是装备最差、难以检测对方提交的伪造材料的群体。关于人类检测的研究也不乐观:普通人对 AI 生成图像的识别准确率约 62%,置信度与准确率基本脱钩,而教育干预措施未能带来可靠的改善 (Bray et al., 2023 (https://arxiv.org/html/2606.07916#bib.bib144); Roca et al., 2025 (https://arxiv.org/html/2606.07916#bib.bib145))。因此,检测工具不再是可选项,而是司法系统实现程序公正的前提条件;而此类工具依赖的训练数据正是本文旨在解决的瓶颈问题。
### 2.2 为什么通用检测在证据内容上失败
合成内容检测领域的发展主要服务于两个相邻的应用:识别学术提交中的 AI 生成文本,以及识别社交媒体错误信息中的篡改媒体。这两种情境塑造了现有工具,但限制了它们在法庭上的实用性。三个局限性尤为关键。
第一个关乎运行环境。学术和社交媒体检测器通常针对干净、完整且以标准格式呈现的输入进行评估。而成文法到达法院时的状态截然不同:通常经过传输平台的压缩、被编辑、被翻译、在证据链传递过程中丢失元数据,或者被渲染为截图的截图。Rössler 等人 (2019 (https://arxiv.org/html/2606.07916#bib.bib95)) 表明,FaceForensics++ 上的检测准确率从原始质量下的近乎完美,骤降至某些篡改类型在不同压缩水平下接近随机猜测;Chandra 等人 (2025 (https://arxiv.org/html/2606.07916#bib.bib105)) 报告称,最先进的检测器在真实世界材料上的 AUC 相比学术基准下降约 45 个点。从受控基准条件到实际部署的退化幅度之大,足以决定检测器是否适用于证据目的。
第二个关乎生成跨代与对抗脆弱性。AI 生成工具经历了不同的技术路径:先是基于 GAN,后是基于扩散,每种方式留下不同的统计痕迹。训练于一种方法的检测器在其内部可以泛化,但在跨方法时则失败。Corvi 等人 (2022 (https://arxiv.org/html/2606.07916#bib.bib90)) 用实证确认了 Wang 等人 (2020 (https://arxiv.org/html/2606.07916#bib.bib93)) 先前的预测:基于 GAN 训练的检测器可以在 GAN 架构间迁移,但在扩散内容上失效。Mavali 等人 (2025 (https://arxiv.org/html/2606.07916#bib.bib3)) 进一步表明,针对最先进图像检测器精心制作的微小扰动足以导致误分类;类似的结果在 AI 文本检测器中也有发现 (Huang et al., 2024 (https://arxiv.org/html/2606.07916#bib.bib4))。一个针对当今生成器在良性输入上验证通过的检测器,无法保证在面对未来生成器或蓄意规避时仍能保持性能。
第三个关乎输出形式。当前多数检测系统返回二分类标签、置信度分数或显著性热力图。这些都无法映射到证据推理——证据推理涉及可采性、证明力、责任分配、校准性弃权,以及这些决定所需的结构化论证 (Dalal et al., 2025 (https://arxiv.org/html/2606.07916#bib.bib97); Grossman and Grimm, 2025 (https://arxiv.org/html/2606.07916#bib.bib5))。生成与法庭兼容输出的检测器不仅仅是架构问题,更深层的是数据集设计问题。训练数据必须以超出二分类标签的粒度记录篡改类型、生成器身份和真实元数据,而现有基准无法提供这一点。
### 2.3 现有数据集及其局限性
**带有伪造标注的基准。** 人脸深度伪造语料库资源丰富。FaceForensics++ (Rössler et al., 2019 (https://arxiv.org/html/2606.07916#bib.bib95))、Celeb-DF (Li et al., 2020 (https://arxiv.org/html/2606.07916#bib.bib89))、DeepFake Detection Challenge (Dolhansky et al., 2020 (https://arxiv.org/html/2606.07916#bib.bib83))、ForgeryNet (He et al., 2021 (https://arxiv.org/html/2606.07916#bib.bib85)) 和 OpenForensics (Le et al., 2021 (https://arxiv.org/html/2606.07916#bib.bib86)) 共同提供了数百万个带标注的人脸篡改样本。通用场景图像篡改基准包括 CASIA (Dong et al., 2013 (https://arxiv.org/html/2606.07916#bib.bib80)) 和 NIST OpenMFC (Guan et al., 2019 (https://arxiv.org/html/2606.07916#bib.bib78))。相比之下,文档伪造资源则稀少且集中在财务文档上。Find It Again! 收据语料库 (Tornés et al., 2023 (https://arxiv.org/html/2606.07916#bib.bib82)) 和更早的 ICPR Find It! 竞赛数据集 (Artaud et al., 2018 (https://arxiv.org/html/2606.07916#bib.bib62)) 共同提供了不到 3,000 个带有伪造标注的收据样本;Sidere 等人 (2017 (https://arxiv.org/html/2606.07916#bib.bib81)) 的语料库贡献了 477 张工资单。所有公开来源的文档伪造训练数据总量大约为几千个样本,而人脸深度伪造则有数百万个——这种不平衡反映的并非常规诉讼中证据提交的分布,而是学术兴趣的历史分布。
**真实来源语料库。** 书证证据的检测模型必须建立在未经篡改的材料基础之上。SROIE (Huang et al., 2019 (https://arxiv.org/html/2606.07916#bib.bib7)) 和 CORD (Park et al., 2019 (https://arxiv.org/html/2606.07916#bib.bib1)) 提供收据语料库;RVL-CDIP (Harley et al., 2015 (https://arxiv.org/html/2606.07916#bib.bib55)) 和 DUDE (Van Landeghem et al., 2023 (https://arxiv.org/html/2606.07916#bib.bib2)) 覆盖商业与行政文档;Enron 语料库和 LDC 的 Avocado 集合覆盖企业电子邮件;UCSF 行业文档图书馆提供大量诉讼披露的商业记录。但这些语料库均无篡改标签,因此只能作为研究者自行构建伪造的起始材料。
表 1:第 2 节 (https://arxiv.org/html/2606.07相似文章
AI生成的社交机器人内容的对抗性创建与检测
本文提出了一种对抗性方法,用于创建和检测AI生成的社交机器人内容,并整理了一个多语言、跨平台的人类与AI消息配对数据集。在这种对抗性数据上进行训练,能够在实际环境中显著超越现有的基于内容的机器人检测模型。
SynCred-Bench: AI生成视觉虚假信息中合成可信度的基准测试
介绍了SynCred-Bench,这是一个包含600张AI生成的虚假信息图像的基准测试,涵盖六种可信形式类别,表明现有检测器(包括MLLMs、开源AIGC检测器和商业API)表现不佳,人类标注者同样难以识别。
AI生成文本检测中语言特征的系统性分析:跨领域与跨模型研究
一项大规模实证研究对284个语言特征在27个大语言模型和10个文本领域中的表现进行了分析,以评估哪些特征能够可靠地检测AI生成文本。研究发现,词汇丰富度指标是跨领域和跨模型最稳健的信号,而许多其他已提出的指标则高度依赖具体上下文。
Counter Turing Test 的发现:AI生成文本检测
本文介绍了 Counter Turing Test 共享任务在AI生成文本检测方面的发现,顶级系统在二分类任务中达到了完美表现,但在模型归因方面性能显著较低,突显了区分不同大语言模型输出的难度。
Artifact-Bench:评估多模态大语言模型在检测与评估AI生成视频伪影方面的能力
Artifact-Bench是一个综合性基准,用于评估多模态大语言模型在检测和分析AI生成视频伪影方面的表现,揭示了它们的显著局限性以及与人类感知的错位。