从片段到语义:重新思考多语言事实核查的证据粒度

arXiv cs.CL 论文

摘要

本文介绍了SEEK,一个用于多语言事实核查中语义证据提取的框架,该框架从完整文章中构建连贯的证据块,并使用LoRA微调多语言大语言模型,在宏观F1分数上相比基线提升了高达20%。

arXiv:2605.26755v1 公告类型: 新 摘要:多语言事实核查需要既相关又足够完整的证据,以实现可靠的事实性预测。然而,现有系统通常依赖搜索片段、句子级证据或局部切分的段落,这可能会遗漏关键上下文并产生碎片化的证据。为克服这些限制,我们提出了SEEK,一种自适应分块的语义证据提取框架,通过识别语义主题转换并保留局部验证上下文,从完整的事实核查文章中构建连贯的证据块。构建的块使用多语言编码器进行编码,然后使用LoRA适配器微调多语言大语言模型以进行真实性预测。在X-FACT和RU22Fact上的实验表明,SEEK的宏观F1分数相比语义分块提升高达10%,相比句子分块提升19%,相比搜索片段基线提升20%。证据完整性和显著性分析进一步表明,SEEK保留了更丰富的验证上下文,能够实现更可靠的多语言事实核查。
查看原文
查看缓存全文

缓存时间: 2026/05/27 09:10

# 从片段到语义:重新思考多语言事实核查的证据粒度

来源: https://arxiv.org/html/2605.26755

Babu Kumar \*, Gaurav Kumar \*, Ayush Garg, Aditya Kishore, Jasabanta Patro  
数据科学与工程系  
印度科学教育与研究学院博帕尔分校,印度  
\{babu21, gaurav22, ayushg24, adityak21, jpatro\}@iiserb\.ac\.in

###### 摘要

多语言事实核查所需的证据既要相关,又要足够完整,以便进行可靠的真实性预测。然而,现有系统通常依赖搜索片段、句子级证据或局部切分的段落,这可能会遗漏关键上下文,并产生碎片化的证据。为克服这些限制,我们提出了 **SEEK**(一种自适应分块的语义证据提取框架),该框架通过识别语义主题转换并保留局部验证上下文,从完整的事实核查文章中构建连贯的证据块。这些构建的证据块使用多语言编码器进行编码,然后使用 LoRA 适配器对多语言大语言模型进行微调,用于真实性预测。在 X-FACT 和 RU22Fact 上的实验表明,SEEK 相比语义分块、句子分块和搜索片段基线,其 macro-f1 分别提高了最高 10%、19% 和 20%。证据完整性和显著性分析进一步表明,SEEK 保留了更丰富的验证上下文,并实现了更可靠的多语言事实核查。

---

## 1 引言

当今在线信息生态系统的多语言特性使得错误信息愈发难以检测、情境化和验证(Panchendrarajan and Zubiaga 2024 (https://arxiv.org/html/2605.26755#bib.bib15))。一个单一的误导性主张可能跨越语言、平台和区域社群传播,通常通过翻译、释义或特定文化框架呈现出修改形式(Quelle et al. 2025 (https://arxiv.org/html/2605.26755#bib.bib19); Peng et al. 2025b (https://arxiv.org/html/2605.26755#bib.bib17))。在这种背景下,事实核查不仅限于判断主张的真假,还需要识别可靠的证据、保留主张跨语言的意义,并对可能结构、语言和详细程度各异的异构来源进行推理(Guo et al. 2022 (https://arxiv.org/html/2605.26755#bib.bib5); Gupta and Srikumar 2021a (https://arxiv.org/html/2605.26755#bib.bib6))。

![图1](https://arxiv.org/html/2605.26755#fig1)
图 1:所提出的多语言事实核查框架的高层示意图。嘈杂的多语言片段和完整网页通过 SEEK 透镜转换为连贯的证据,然后由多语言大语言模型用于真实性预测。

人工事实核查员在此过程中仍然至关重要,因为他们能够解释上下文、比较来源,并运用语言和领域特定的判断来评估证据(Nakov et al. 2021 (https://arxiv.org/html/2605.26755#bib.bib13))。然而,人工事实核查难以扩展到应对在线错误信息的速度和数量(Nakov et al. 2021 (https://arxiv.org/html/2605.26755#bib.bib13); Nanhekhan et al. 2025 (https://arxiv.org/html/2605.26755#bib.bib14))。这推动了自动事实核查的发展,其中 NLP 系统检索相关证据并预测主张的真实性(Guo et al. 2022 (https://arxiv.org/html/2605.26755#bib.bib5); Zheng et al. 2024a (https://arxiv.org/html/2605.26755#bib.bib30))。尽管最近取得了进展,系统可靠性在很大程度上取决于证据质量(Zheng et al. 2024a (https://arxiv.org/html/2605.26755#bib.bib30); Nanhekhan et al. 2025 (https://arxiv.org/html/2605.26755#bib.bib14)),尤其是在多语言环境中,相关信息可能分散在长篇幅的事实核查文章、新闻报道、官方文件或网页中(Zheng et al. 2024a (https://arxiv.org/html/2605.26755#bib.bib30); Gupta and Srikumar 2021a (https://arxiv.org/html/2605.26755#bib.bib6); Cekinel et al. 2024 (https://arxiv.org/html/2605.26755#bib.bib2); Peng et al. 2025b (https://arxiv.org/html/2605.26755#bib.bib17); Schlichtkrull et al. 2023 (https://arxiv.org/html/2605.26755#bib.bib20))。这些来源通常在同一文档中混杂背景讨论、引用的主张、上下文解释和最终裁决(Augenstein et al. 2019 (https://arxiv.org/html/2605.26755#bib.bib1); Schlichtkrull et al. 2023 (https://arxiv.org/html/2605.26755#bib.bib20))。因此,短片段或孤立的句子可能会遗漏完整的验证上下文,而处理整篇文档则会引入大量不相关的信息(Zheng et al. 2024a (https://arxiv.org/html/2605.26755#bib.bib30); Schlichtkrull et al. 2023 (https://arxiv.org/html/2605.26755#bib.bib20))。这就造成了检索到的证据单元与实际可靠主张验证所需的证据跨度之间的不匹配(Zheng et al. 2024a (https://arxiv.org/html/2605.26755#bib.bib30); Schlichtkrull et al. 2023 (https://arxiv.org/html/2605.26755#bib.bib20))。

现有的证据检索策略通常依赖于固定大小的段落、句子级切分或外部检索的片段(Chen et al. 2022 (https://arxiv.org/html/2605.26755#bib.bib3); Schlichtkrull et al. 2023 (https://arxiv.org/html/2605.26755#bib.bib20))。虽然简单高效,但这些方法可能无法对齐事实核查文档的语义结构(Zhang et al. 2023 (https://arxiv.org/html/2605.26755#bib.bib28))。固定窗口可能将推理分割在边界处,而句子级检索则可能丢弃正确解释所需的周围上下文(Zhang et al. 2023 (https://arxiv.org/html/2605.26755#bib.bib28); Zheng et al. 2024a (https://arxiv.org/html/2605.26755#bib.bib30))。这种限制在多语言环境中被放大,因为翻译变体、代码混合和特定语言的语篇模式可能会削弱主张与证据的对齐(Panchendrarajan and Zubiaga 2024 (https://arxiv.org/html/2605.26755#bib.bib15); Peng et al. 2025b (https://arxiv.org/html/2605.26755#bib.bib17))。

为了解决这些限制,我们提出了 **SEEK**,一种用于多语言事实核查的自适应分块语义证据提取框架。SEEK 不依赖短片段或固定长度的段落,而是通过检测共享多语言嵌入空间中的语义主题转换,从完整的网页文档中构建连贯的证据块。这些块保留了完整的验证上下文,同时减少了无关噪声,然后使用 LoRA 微调(Hu et al. 2022 (https://arxiv.org/html/2605.26755#bib.bib8))的多语言大语言模型将其检索用于真实性预测。核心思想是:可靠的多语言事实核查不仅需要强大的语言模型,还需要更好的证据粒度。因此,改进证据的切分和检索方式可以增强下游真实性预测在多语言环境中的可靠性。

我们的贡献如下:

- • 我们引入了 **SEEK**,一个多语言证据构建框架,它结合了上下文主题转换检测、分数平滑、自适应阈值和边界重叠,以生成面向验证的证据块。
- • 我们将 SEEK 与多语言密集检索和 LoRA 微调的多语言大语言模型相结合,在多语言事实核查基准上取得了最先进的真实性预测性能。
- • 我们在 X-Fact 和 RU22Fact 上进行了全面的证据分析,包括跨多语言和泛化设置下的证据完整性、相似性和统计显著性研究。
- • 我们进一步进行了基于翻译的评估,以分析语言归一化对多语言事实核查中证据检索和真实性预测的影响。

---

## 2 相关工作

### 2.1 通用与多语言事实核查

自动事实核查通常被定义为使用模型内部知识或外部证据来验证主张。FEVER(Thorne et al. 2018 (https://arxiv.org/html/2605.26755#bib.bib21))和 LIAR(Wang 2017 (https://arxiv.org/html/2605.26755#bib.bib26))等基准确立了英语中基于证据和细粒度的事实核查,而 X-FACT(Gupta and Srikumar 2021b (https://arxiv.org/html/2605.26755#bib.bib7))和 RU22Fact(Zeng et al. 2024 (https://arxiv.org/html/2605.26755#bib.bib27))等多语言数据集将此任务扩展到不同语言、领域和资源设置。这些基准表明,多语言事实核查不仅依赖于强大的真实性模型,还依赖于证据的相关性、完整性以及目标主张在语言上的可用性。

### 2.2 证据提取与检索

**片段级和句子级检索。** 许多事实核查系统依赖搜索片段、单个句子或短段落作为证据(Gupta and Srikumar 2021a (https://arxiv.org/html/2605.26755#bib.bib6))。这些单元高效且专注,但常常割裂验证上下文。在多语言环境中,这个问题被放大,因为片段可能遗漏关键背景、扭曲命名实体,或丢失主张、调查和裁决之间的联系(Gupta and Srikumar 2021a (https://arxiv.org/html/2605.26755#bib.bib6))。DPR 和 multilingual-e5 等密集检索器改进了主张与候选证据之间的语义匹配(Karpukhin et al. 2020 (https://arxiv.org/html/2605.26755#bib.bib10); Wang et al. 2024 (https://arxiv.org/html/2605.26755#bib.bib25))。同样,CONCRETE 通过学习来自可信多语言语料库的多语言检索表示,改进了跨语言事实核查(Huang et al. 2022 (https://arxiv.org/html/2605.26755#bib.bib9))。然而,这些检索方法并未直接解决粒度问题:检索到的单元可能仍然太短而无法包含完整的验证上下文,或者太宽泛而包含无关信息。

**文档分块方法。** 其他方法通过将长文档分割成固定大小、句子感知或语义块来检索证据(Qu et al. 2025 (https://arxiv.org/html/2605.26755#bib.bib18); Kiss 2025 (https://arxiv.org/html/2605.26755#bib.bib11))。固定和基于句子的分块简单,但当验证线索出现在边界之外时,可能会切断关键信息(Qu et al. 2025 (https://arxiv.org/html/2605.26755#bib.bib18))。语义分块提高了连贯性,但基于局部相似性的边界在嘈杂的多语言事实核查文章中仍可能不稳定,这些文章混合了主张、解释、引用和裁决(Qu et al. 2025 (https://arxiv.org/html/2605.26755#bib.bib18); Kiss 2025 (https://arxiv.org/html/2605.26755#bib.bib11))。这导致了一个关键权衡:较短的单元减少噪声但存在上下文割裂的风险,而较长的单元保留上下文但可能引入无关信息(Qu et al. 2025 (https://arxiv.org/html/2605.26755#bib.bib18))。

### 2.3 多语言验证中的证据粒度

先前的工作通过更好的数据集、跨语言检索方法(如 CONCRETE)、基于翻译的归一化和基于 LLM 的验证,推动了多语言事实核查的发展(Huang et al. 2022 (https://arxiv.org/html/2605.26755#bib.bib9); Peng et al. 2025a (https://arxiv.org/html/2605.26755#bib.bib16))。然而,证据粒度的作用仍未得到充分探索:检索到的文本不仅要与主张语义相关,还要足够完整以支持真实性预测(Viswanathan et al. 2025 (https://arxiv.org/html/2605.26755#bib.bib24))。这对于多语言验证尤为重要,因为系统必须处理语言变异、低资源设置、嘈杂的网页和分散的证据线索(Peng et al. 2025a (https://arxiv.org/html/2605.26755#bib.bib16); Viswanathan et al. 2025 (https://arxiv.org/html/2605.26755#bib.bib24))。这一差距激发了一种超越孤立片段或固定窗口的证据构建策略,同时仍避免过于宽泛的文档段落。通过将块边界与上下文主题转换对齐并保留边界重叠,所提出的方法保留了主张、支持细节和裁决之间的连续性。这样,它减少了证据检索中的上下文割裂,并为多语言事实核查提供了更完整的验证证据。

---

## 3 数据集详情

在本节中,我们报告用于评估我们研究的数据集详细信息。由于我们的工作侧重于多语言事实核查,我们考虑了两种多语言基准:**X-FACT**(Gupta and Srikumar 2021b (https://arxiv.org/html/2605.26755#bib.bib7))和 **RU22Fact**(Zeng et al. 2024 (https://arxiv.org/html/2605.26755#bib.bib27))。这些数据集使我们能够评估所提出的框架在不同语言、主张和证据来源上的表现。两个数据集的统计详情总结在表 1 (https://arxiv.org/html/2605.26755#S3.T1) 中。额外的数据集描述在附录 A (https://arxiv.org/html/2605.26755#A1) 中提供。

表 1:我们工作中考虑的多语言数据集详情。

---

## 4 方法论

本工作中使用的整体事实核查流程包含四个关键组件:(i) 网页爬虫,(ii) SEEK 分块模块,(iii) 多语言密集检索器,以及 (iv) 指令微调的大语言模型,即 LLaMA、Gemma 和 Mistral。各个组件描述如下:

**网页爬虫:** 在 X-FACT 数据集(Gupta and Srikumar 2021b (https://arxiv.org/html/2605.26755#bib.bib7))中,每个主张附带五个 Google 搜索片段及其对应的源 URL。由于这些片段通常不足以进行可靠验证,我们使用 Crawl4AI(UncleCode 2024 (https://arxiv.org/html/2605.26755#bib.bib23))爬取每个 URL 的完整内容。爬虫去除导航栏和脚本等样板元素,提取主要文本内容,每个主张最多产生五个文档,长度从数百到数千个 token 不等。相比之下,RU22Fact 中的每个主张链接到单个源 URL,我们使用相同的流程检索并清洗。

**分块模块:** 由于爬取到的网页长且非结构化,提取的文档在证据检索之前被划分为更小的文本单元。有效的分块应平衡效率和完整性:非常短的块可能遗漏验证所需的上下文,而非常长的块可能引入无关内容。现有的基于句子或语义的分块方法,当验证线索分布在文档中邻近但分离的部分时,仍可能产生不完整的证据。为了解决这个问题,SEEK 使用上下文窗口主题转换检测、平滑、自适应阈值和重叠感知的块构建,形成连贯的证据段落。如图 11 (https://arxiv.org/html/2605.26755#A5.F11) 所示,这有助于在同一个检索单元内同时保留病毒式传播的主张上下文和后来的反证证据。

#### 基线分块方法。 我们将 SEEK 与两种常见的文档分块策略进行比较。句子感知的固定大小分块将文档分成固定 token 限制下的连续句子组。

相似文章