解释是否必要且充分？调优LLM用于可解释的虚假信息检测

arXiv cs.CL 2026/05/20 04:00 论文

摘要

本文提出了一种专门用于可解释虚假信息检测的LLM微调流水线，并介绍了一种数据合成方法LonsRex，用于生成必要且充分的解释，解决了仅基于标签正确性进行简单过滤的局限性。

arXiv:2605.19285v1 公告类型：新摘要：社交媒体上虚假信息的快速传播已成为一个严峻挑战。为了遏制其扩散，虚假信息检测（MD）已成为一个关键研究课题。传统的基于小模型的MD方法通常通过黑盒过程进行二元分类。最近，大型语言模型（LLM）的兴起使得可解释的MD成为可能，模型能够生成解释其决策的推理过程，从而增强透明度。现有的可解释MD方法主要集中于设计复杂的提示词，以从现成的LLM中引出推理过程。本文中，我们提出了一种流水线，用于微调专门的LLM以进行可解释的MD。我们的流水线首先收集大规模经过事实核查的文章，然后使用多个强LLM生成真实性预测和推理过程。为确保高质量的训练数据，我们采用了一种过滤策略，仅选择正确的实例进行微调。尽管这种流水线直观且普遍，我们的实验表明，仅基于标签正确性的简单过滤在实践中并不充分，并且存在两个关键局限：（1）粗粒度标签导致解释不充分：仅基于二元标签过滤的解释不足以充分支持其决策；（2）过度验证行为导致不必要的解释：更强的LLM倾向于表现出过度验证行为，产生过于冗长和不必要的解释。为解决这些问题，我们引入了LONSREX，一种新颖的数据合成流水线，用于定位可解释MD中的必要且充分的解释。具体地，我们提出了一种度量标准，量化每个验证步骤对最终预测的贡献，从而评估其必要性和充分性。实验结果证明了LONSREX的有效性。

查看原文

查看缓存全文

缓存时间: 2026/05/20 08:25

# 理由是否必要且充分？调优大语言模型用于可解释虚假信息检测

来源：https://arxiv.org/html/2605.19285

王冰¹ (https://orcid.org/0000-0002-1304-3718)（吉林大学计算机科学与技术学院，长春，中国；阿里巴巴集团通义实验室，杭州，中国；[email protected]）

苗瑞² (https://orcid.org/0000-0002-2917-2311)（吉林大学人工智能学院，长春，中国；[email protected]）

李希明¹ (https://orcid.org/0000-0001-8190-5087)（吉林大学计算机科学与技术学院，长春，中国；RIKEN AIP，东京，日本；[email protected]）

陈深² (https://orcid.org/0000-0002-7534-0830)，颜少天² (https://orcid.org/0000-0002-9029-0763)（阿里巴巴集团通义实验室，杭州，中国；[email protected]；[email protected]）

李长春¹ (https://orcid.org/0000-0002-8001-2655)（吉林大学计算机科学与技术学院，长春，中国；[email protected]）

刘凯源³ (https://orcid.org/0009-0005-4717-0087)（浙江大学计算机科学与技术学院，杭州，中国；[email protected]）

袁小松¹ (https://orcid.org/0000-0001-5748-5174)（吉林大学计算机科学与技术学院，长春，中国；[email protected]）

叶杰平² (https://orcid.org/0000-0001-8662-5818)（阿里巴巴集团通义实验室，杭州，中国；[email protected]）

（2026）

###### 摘要

社交媒体平台上虚假信息的快速传播已成为一个严峻的挑战。为遏制其蔓延，虚假信息检测（Misinformation Detection, MD）已成为一个关键研究课题。基于小模型的传统MD方法通常执行二分类（例如，真实和虚假），且过程为黑箱。近年来，大语言模型（LLMs）的兴起使得可解释MD成为可能，即模型生成解释其决策的理由，从而增强透明度。现有的可解释MD方法主要集中于设计复杂的提示，以从现成的LLM中引出理由。在这项工作中，我们提出一个管道，专门针对可解释MD对专用LLM进行微调。我们的管道首先收集大规模经过事实核查的文章，然后使用多个强大的LLM生成真实性预测和理由。为确保高质量的训练数据，我们利用过滤策略，仅选择正确的实例进行微调。虽然这个管道直观且普遍，但我们的实验表明，仅基于标签正确性的简单过滤在实践中是不够的，并且存在两个关键局限性：（1）粗粒度标签导致理由不充分：仅基于二分类标签过滤的理由不足以充分支持其决策；（2）过度验证行为导致不必要理由：更强的LLM倾向于表现出过度验证行为，生成过分冗长和不必要的理由。为解决这些问题，我们提出LonsRex，一种新颖的数据合成管道，用于定位可解释MD的必要且充分理由。具体来说，我们提出一个度量标准，量化每个验证步骤对最终预测的贡献，从而评估其必要性和充分性。实验结果表明，LonsRex将基线LLM的准确率提高了约22.97%，并与更大的LLM性能相当。我们将公开发布我们的316k原始数据以及由LonsRex过滤后的版本。

社交媒体，虚假信息检测，大语言模型，可解释性，监督微调，数据过滤

††版权：acm授权
††期刊年份：2026
††DOI：XXXXXXX.XXXXXXX
††会议：第32届ACM SIGKDD知识发现与数据挖掘会议；2026年8月9-13日，韩国济州岛
††ISBN：978-1-4503-XXXX-X/18/06
††CCS：计算方法论 → 人工智能
††CCS：信息系统 → 社交网络

## 1. 引言

在当今的社交媒体平台上，例如X.com和Reddit，大量用户积极传播和消费信息。不幸的是，这一信息生态系统不可避免地受到大量蓄意捏造的虚假信息的污染，对用户的财务安全和心理健康构成严重威胁（Lazer et al., 2018；Vosoughi et al., 2018）。为遏制此类虚假信息的传播，虚假信息检测（MD）已成为一个关键且活跃的研究课题，旨在自动且快速地识别社交媒体上的虚假信息，以促进及时的干预和控制（Hu et al., 2024；Wang et al., 2025b；Modzelewski et al., 2025）。

图1：一个代表性案例，展示了LLM为虚假声明生成的其中一个理由。

通常，先前的MD方法涉及训练判别模型，通过整合各种外部特征（例如情感信号（Zhang et al., 2021；Liu et al., 2025b）、常识知识（Du et al., 2021；Wang et al., 2025a）和发布者意图（Wang et al., 2024a, 2025d））将社交媒体上的声明分类为二分类标签，即真实或虚假。尽管这些方法性能优越，但判别模型的黑箱性质使其无法揭示预测背后的潜在推理过程。因此，为提高决策透明度，近期研究已转向可解释MD，其目标是在二分类输出之外再生成自然语言理由（Yang et al., 2022；Wang et al., 2024b, 2025c）。这些方法主要利用大语言模型（LLMs）设计复杂的提示来直接引出理由（Hu et al., 2024；Modzelewski et al., 2025），或总结检索到的外部证据作为理由（Wang et al., 2024b；Yue et al., 2024）。例如，PCoT（Modzelewski et al., 2025）采用基于说服知识的系统提示；L-Defense（Wang et al., 2024b）将检索到的证据聚类为支持和反对两组，并分别使用LLM进行总结。尽管这些方法优于直接对LLM进行零样本提示，但它们严重依赖于基础LLM的能力和检索到的证据质量，这限制了它们的潜力。

在这项工作中，我们采取不同的视角，设计一个以数据为中心的管道，专门针对可解释MD微调轻量级LLM。具体来说，我们的管道首先收集316k个公开可用的经过事实核查的声明，每个声明标记为真实或虚假。然后，我们提示多个强大的LLM为这些声明生成相应的逐步理由，如图1所示。最后，应用一些启发式过滤标准，例如正确性（Chen et al., 2025；Luo et al., 2025）和格式标准（Guo et al., 2025），为轻量级LLM（例如 Qwen3-4B-Instruct（Yang et al., 2025））的监督微调选择更高质量的声明-标签对。虽然这个管道直观且普遍，但我们的实验进一步表明，仅基于二分类标签正确性的简单过滤在实践中对于可解释MD是不够的，并且存在两个关键局限性：

（1）粗粒度标签导致理由不充分：如图1所示，与声明相关的理由通常涉及十几个验证步骤。仅依赖二分类标签的正确性来过滤训练样本，不足以评估每个验证步骤的质量。因此，训练数据不可避免地包含无意义甚至嘈杂的理由，这一点在第2.1节进行了实证分析。

（2）过度验证行为导致不必要理由：我们在第2.2节的实验表明，具有更强推理能力的LLM倾向于生成更复杂的验证过程，导致声明验证过于严格。这种过度验证不仅增加了将声明标记为虚假的可能性，而且降低了在这些理由上训练的LLM的性能，因为过多且不必要的验证步骤引入了噪声并降低了训练效率。

为缓解这些问题，我们更新了训练管道并提出一种新方法，即定位可解释MD的必要且充分理由（LonsRex）。具体来说，LonsRex的基本思想是设计一个基于困惑度的度量标准，量化理由中每个验证步骤对预测的贡献，并选择包含更少无用验证步骤和更多有用验证步骤的必要且充分的理由。为实现这一目标，我们首先通过测量当屏蔽某个验证步骤时LLM预测困惑度的变化，来评估每个验证步骤的贡献。基于这个反事实归因框架，我们引入两个互补的归因度量：自归因分数和互归因分数。自归因分数评估单个理由内各个验证步骤的平均贡献；互归因分数汇总多个理由中不同验证视角，并假设频繁出现的高贡献视角通常更重要；因此，它评估每个理由内视角的平均贡献。在实施过程中，我们生成了948k个理由和预测，并选择200k个高质量样本来微调不同规模的LLM（例如4B、2B和1.5B参数）。得到的LLM显著优于其基础版本，并且与更大的开源LLM性能相当。

我们的贡献可总结为以下三点：

- •我们通过实证发现，由LLM生成的可解释MD的理由基训练数据通常包含大量不必要和不充分的理由。
- •为解决这个问题，我们提出一种新颖的管道LonsRex，通过显式定位那些必要且充分的理由来微调LLM以生成高质量的MD理由。
- •我们进一步构建了一个可解释MD的评估基准，并证明我们微调的LLM始终优于其基础LLM，并且与更大的开源LLM相比取得了有竞争力的结果。

## 2. 初步实证分析

我们实证评估了由先进LLM生成的训练理由，发现即使它们的预测正确，其中也包含大量不必要和不充分的理由。

**可解释MD的任务形式化。** 形式上，给定来自社交媒体平台的声明x，可解释MD旨在预测真实性标签y∈{0,1}（0/1表示虚假/真实），并生成相应的理由E={e1,...,eL}。这里，el表示第l个验证步骤，从特定角度分析声明，如图1所示。在这项工作中，我们从开源存储库收集一个大规模经过事实核查的数据集D={(xi,yi)}i=1|D|。我们利用先进的LLM为每个声明xi生成一组候选理由和预测{(Eik,ŷik)}k=1K，其中K表示每个声明的候选数量。然后，我们应用启发式过滤策略，例如基于真实性标签ŷ进行过滤，以策划一个高质量子集D̂={(xi,Ei,ŷi)}i=1|D̂|，其中|D̂|≪|D|，用于微调一个目标LLM。

表1：我们方法在五个真实世界基准数据集上的平均性能表现。指标包括：Acc（准确率）、Pre（精确率）、Rec（召回率）和F1（F1分数）。以粗体标记最佳结果，下划线标记次佳结果。†表示使用其官方推理提示。⁑表示我们基于Huggingface模型和开源数据复现的结果。

| 方法 | 模型 | 参数 | HOVER | HSOL | PHEME | LIAR | COVID-19 |
|------|------|------|------|------|------|------|------|
| | | | Acc/Pre/Rec/F1 | Acc/Pre/Rec/F1 | Acc/Pre/Rec/F1 | Acc/Pre/Rec/F1 | Acc/Pre/Rec/F1 |
| GPT-4o (high effort) | ≈1T | 72.83/73.75/71.91/72.77 | 76.65/66.13/83.90/72.29 | 86.46/85.09/86.79/85.77 | 83.20/76.15/87.56/80.27 | 82.57/83.81/82.52/81.89 |
|   + CoT (NeurIPS'22) | ≈1T | 74.12/72.77/76.00/74.27 | 78.87/67.04/87.33/74.31 | 88.09/87.57/88.23/87.83 | 82.20/72.27/89.15/78.30 | 84.25/85.53/84.24/83.94 |
|   + ARG (AAAI'24) | ≈1T | 77.05/75.08/80.47/77.50 | 79.07/67.35/87.46/74.88 | 86.77/85.68/86.76/85.89 | 82.57/72.22/90.10/78.17 | 86.28/88.33/86.29/85.97 |
|   + GenFend (CIKM'24) | ≈1T | 74.86/74.69/75.17/74.88 | 79.47/66.94/88.72/74.50 | 87.03/85.45/87.47/86.30 | 82.69/71.81/90.58/78.05 | 83.84/84.14/83.83/83.09 |
|   + DMR (ACL'25) | ≈1T | 72.65/73.15/71.92/72.47 | 77.40/65.91/85.68/72.86 | 85.24/84.28/85.20/84.69 | 82.21/72.85/88.65/77.99 | 82.43/84.03/82.42/81.82 |
|   + PCoT (ACL'25) | ≈1T | 73.62/71.57/77.30/74.08 | 78.06/67.50/85.76/73.69 | 86.45/86.12/86.34/86.12 | 80.42/69.04/88.49/75.54 | 83.28/83.28/83.28/82.52 |
| DeepSeek-V3.2 | 685B | 68.97/61.18/74.16/68.79/91.37/90.03/82.89/92.97/84.12/77.34/87.78/81.53 | | | | |
|   + CoT (NeurIPS'22) | 685B | 65.15/50.06/73.23/89.15/80.95/92.41/89.07/80.28/92.44/78.87/61.63/85.42/78.22 | | | | |
|   + ARG (AAAI'24) | 685B | 67.12/56.15/73.71/88.57/81.08/91.82/91.18/84.64/93.82/83.22/74.44/87.51/81.11 | | | | |
|   + GenFend (CIKM'24) | 685B | 66.62/53.24/74.05/87.63/79.60/91.12/92.64/86.55/94.93/84.68/77.91/88.27/81.44 | | | | |
|   + DMR (ACL'25) | 685B | 66.75/55.70/73.39/88.49/80.91/91.76/89.73/82.52/92.73/82.73/74.33/86.99/80.50 | | | | |
|   + PCoT (ACL'25) | 685B | 65.80/51.73/73.52/84.28/74.41/88.65/91.13/83.22/93.97/85.58/76.87/89.53/79.89 | | | | |
| Qwen3-235B-A22B-Ins. | 235B | 64.98/66.44/63.37/84.88/77.83/88.53/88.43/81.02/91.68/75.56/68.97/79.84/77.63 | | | | |
|   + CoT (NeurIPS'22) | 235B | 63.15/57.62/67.40/84.02/71.99/88.82/86.52/78.18/90.25/77.16/67.84/82.29/76.27 | | | | |
|   + ARG (AAAI'24) | 235B | 66.20/60.74/70.32/84.19/76.04/88.21/89.63/81.27/92.83/80.99/71.71/85.68/78.98 | | | | |
|   + GenFend (CIKM'24) | 235B | 64.10/62.97/65.16/82.38/73.75/86.74/89.98/82.82/92.93/77.72/69.35/82.49/77.53 | | | | |
|   + DMR (ACL'25) | 235B | 66.70/67.34/66.04/83.68/76.19/87.58/84.82/76.99/88.67/83.01/77.66/86.29/78.75 | | | | |
|   + PCoT (ACL'25) | 235B | 66.77/59.04/72.05/85.48/77.79/89.22/90.08/82.90/93.01/84.96/78.57/88.41/80.69 | | | | |
| gpt-oss-120b (high effort) | 120B | 58.05/66.88/42.81/57.47/57.22/57.73/68.29/60.71/73.41/64.35/56.46/69.81/61.10 | | | | |
|   + CoT (NeurIPS'22) | 120B | 58.10/67.18/42.09/57.13/57.09/57.17/65.68/58.51/70.74/64.83/56.50/70.49/60.46 | | | | |
|   + ARG (AAAI'24) | 120B | 60.75/67.22/51.09/61.17/59.21/62.95/71.09/62.06/76.65/68.31/58.30/74.45/64.44 | | | | |
|   + GenFend (CIKM'24) | 120B | 57.95/57.46/58.43/58.42/52.92/62.77/54.06/34.27/64.69/55.78/43.35/63.74/55.32 | | | | |
|   + DMR (ACL'25) | 120B | 57.72/64.04/48.71/61.34/57.22/64.73/67.64/56.05/74.39/64.90/52.72/72.09/61.80 | | | | |
|   + PCoT (ACL'25) | 120B | 64.70/65.83/63.50/68.90/64.30/72.45/84.77/76.69/88.69/80.78/73.61/84.88/74.09 | | | | |

解释是否必要且充分？调优LLM用于可解释的虚假信息检测

相似文章

LLM解释的内容并非其真实信念：基于模型自身输入信念评估解释充分性

错误作为透镜：通过合成误解生成探究LLM推理

当大语言模型学会持续犯错：合成欺骗线性表示的多模型研究

推理的幻象：通过Zero-CoT截断揭示LLM中的规避性数据污染

偏离时回溯：缓解大语言模型推理蒸馏中的双重暴露偏差

提交意见反馈