F2IND-IT! -- 基于图像和文本的多模态模糊虚假印度新闻检测
摘要
提出FIND-IT!,一种多模态虚假新闻检测框架,用于印度新闻。该框架利用ResNet-50提取视觉特征,DistilBERT处理文本,并采用带有注意力融合的自适应神经模糊推理系统(ANFIS)将新闻分类为虚假或真实。
arXiv:2605.17115v1 公告类型:新
摘要:在印度这样多元化的环境中,区域和国家媒体对事实的偏见性操纵使得虚假信息检测变得复杂。本文提出了一种新颖的多模态框架,结合视觉和文本模态,以增强对印度媒体的虚假新闻检测。该架构利用ResNet-50卷积神经网络提取新闻图像的视觉特征,使用DistilBERT编码器获取文本语义嵌入,并采用自适应神经模糊推理系统(ANFIS)生成模糊可靠性评分。在分类前,一个轻量级的基于注意力的融合模块为每种模态分配可学习的权重。在IFND数据集上评估,通过与前人研究的深入比较分析验证了所提模型。实验结果表明,该架构在准确率、精确率、召回率和F1分数上均表现出优越性能,证实了其有效性。
查看缓存全文
缓存时间: 2026/05/19 06:39
# IT! - 使用图像与文本的多模态模糊印度假新闻检测
来源:https://arxiv.org/html/2605.17115
11institutetext:ABV - 印度信息技术学院,瓜廖尔
11email:kushal\.trivedi\.2110@gmail\.com###### 摘要
报纸仍然是新闻业的重要来源,提供时事、政治、商业、体育和娱乐的最新信息。然而,在像印度这样幅员辽阔、文化多样的国家,对事实的部分或偏见性篡改很常见,尤其是当同一条新闻被多家地区性和全国性媒体报道时。虽然现有的几种方法侧重于整合文本和视觉特征进行假新闻检测,但很少有研究检验它们在印度新闻内容上的有效性。本研究提出了一种新颖的多模态框架——FIND-IT!(使用图像和文本的模糊印度假新闻检测)——它结合了视觉和文本模态,以增强对印度媒体的假新闻检测。该模型利用卷积神经网络(ResNet-50)从新闻图像中提取视觉特征,使用文本编码器(DistilBERT)获取文本语义嵌入,并采用自适应神经模糊推理系统(ANFIS)生成模糊可信度分数。在分类为假新闻或真新闻之前,采用一个轻量级的基于注意力的融合模块为每种模态分配可学习权重。本研究通过对IFND数据集进行正式、深入的分析和探索,并与先前研究在准确率、精确率、召回率和F1分数上进行对比,最后简要讨论模型的性能,从而完成整个研究。
## 1 引言
随着近年来技术的进步、普及以及更广泛的使用,被分享的新闻文章数量急剧增加。过去,日常新闻主要通过报纸传播,仅触及一小部分人群。根据印度通信部2024年3月的一份报告,印度95.15%的村庄现在拥有3G或4G移动互联网接入[12 (https://arxiv.org/html/2605.17115#bib.bib9)]。此外,IAMAI(2024年)的报告预测,到2025年,印度约56%的新互联网用户将来自农村地区[2 (https://arxiv.org/html/2605.17115#bib.bib11)]。
然而,随着新闻越来越普及,假新闻的数量也在增长。虽然没有官方定义的“假新闻”,但它通常被描述为任何故意制作且明知是虚假的内容。假新闻经常使用情绪化语言和特殊的写作风格,这些通常通过语调、写作模式等特征来捕捉。传播假新闻的常见方式包括编辑图片、改变主题以误导读者,以及使用点击诱饵来吸引注意力[15 (https://arxiv.org/html/2605.17115#bib.bib12)]。
根据信息与广播部下属新闻信息局的官方数据,2022年至2025年3月期间,共报告了1575起假新闻案件。数量从2022年的338起上升到2024年的583起[4 (https://arxiv.org/html/2605.17115#bib.bib14)]。国家犯罪记录局的数据也显示,在2018年至2020年的疫情初期,假新闻案件增加了214%[6 (https://arxiv.org/html/2605.17115#bib.bib15)]。ISB与CyberPeace在2024年的一项研究发现,46%的虚假信息涉及政治,超过77%的虚假信息通过社交媒体平台传播[11 (https://arxiv.org/html/2605.17115#bib.bib17)]。另一项针对德里Z世代用户的调查发现,91%的人认为假新闻会影响选举结果[1 (https://arxiv.org/html/2605.17115#bib.bib16)]。
当前自动检测假新闻的方法通常分为三类:基于模态的方法、基于传播的方法和基于事实的方法[14 (https://arxiv.org/html/2605.17115#bib.bib10)]。基于模态的方法关注新闻内容本身,包括文本特征(如写作风格或词汇使用)、图像特征(如图像编辑痕迹),或同时结合文本与图像(多模态)。基于传播的方法研究新闻如何在社交媒体和其他在线平台上传播。基于事实的方法尝试对照可信来源或已知事实核验新闻内容。
从单模态到多模态假新闻分类器的演变变得至关重要,以防止仅在单一内容模态(如仅文本或仅视觉数据)上训练的模型出现欠拟合。在许多情况下,通过图像传达的信息可能与文本内容相矛盾,反之亦然,这可能导致误导性解读,并最终促成偏见性新闻的传播。多模态方法旨在从文本和图像两种模态中捕获互补特征,从而实现更稳健、更准确的假新闻检测。
世界经济论坛《2024年全球风险报告》将印度列为全球信息错误风险最高的国家,专家指出印度存在高水平的政治两极分化和算法放大效应[16 (https://arxiv.org/html/2605.17115#bib.bib13)]。人工检测假新闻劳动密集、耗时且容易产生偏见。因此,在构建以印度新闻文章为核心的可信数据库,以及专注于开发稳健的自动化假新闻分类工具的研究方面,都存在显著空白。这一空白成为引入FIND-IT(一种基于模糊逻辑的多模态深度学习架构用于假新闻检测)的动机。
## 2 先前工作
### 2.1 多模态数据的基线深度学习方法
MAGIC[8 (https://arxiv.org/html/2605.17115#bib.bib2)]、IFND[13 (https://arxiv.org/html/2605.17115#bib.bib1)]、Tri-FusionNet[3 (https://arxiv.org/html/2605.17115#bib.bib3)]、BDANN[19 (https://arxiv.org/html/2605.17115#bib.bib4)]、基于CLIP的学习[20 (https://arxiv.org/html/2605.17115#bib.bib5)]、跨注意力网络[18 (https://arxiv.org/html/2605.17115#bib.bib6)]和ETMA[17 (https://arxiv.org/html/2605.17115#bib.bib7)]是多模态假新闻检测中性能最佳的框架之一。表1 (https://arxiv.org/html/2605.17115#S2.T1) 总结了它们的准确率、F1分数以及所使用的数据集。
表1:用于多模态假新闻检测的性能最佳深度学习框架总结
### 2.2 基于模糊逻辑的多模态数据深度学习方法
据我们所知,[5 (https://arxiv.org/html/2605.17115#bib.bib8)]是唯一将模糊逻辑与神经网络结合用于假新闻分类的工作。该研究的结果总结在表2 (https://arxiv.org/html/2605.17115#S2.T2) 中。
表2:神经模糊模型性能总结
## 3 提出的方法
在本节中,我们介绍所提出框架的方法,包括使用的数据集、各种CNN架构、文本编码器以及实验设置。
### 3.1 使用的数据集
在本研究中,我们采用IFND(印度假新闻数据集)。IFND(印度假新闻数据集)是一个多模态数据集,包含从印度新闻文章中提取的图像-文本对。它由56,713篇新闻文章组成,涵盖2013年至2021年间的国际、国内和地方事件。本研究使用该数据集对假新闻和真新闻进行分类。文章分为五个主题——选举、政治、COVID-19、暴力和杂项。
### 3.2 FIND-IT 架构
在本小节中,我们将讨论所提出的FIND-IT模型的整体架构(如图1 (https://arxiv.org/html/2605.17115#S3.F1) 所示)。
#### 3.2.1 数据的整体流程
该模型分别使用DistilBERT和ResNet-50提取文本和视觉特征,并将其投影到高维嵌入空间。一个轻量级的注意力门控机制融合这些模态,嵌入通过MLP调整尺寸以实现维度对齐。注意力模块自适应地平衡每种模态的贡献。融合后的特征随后通过一个包含两个高斯隶属函数的ANFIS层,执行二值假新闻分类。
#### 3.2.2 视觉特征提取器(CNN)
我们利用基于ResNet-50的视觉编码器提取高级图像特征。具体来说,我们加载预训练的ResNet-50模型,移除其最终分类层,仅保留卷积骨干网络。形式上,给定输入图像II,编码器将其映射为一个固定大小的特征向量:
v=ResNet\(I\)∈R2048,v=\\text\{ResNet\}\(I\)\\in\\mathbb\{R\}^\{2048\},其中vv表示全局平均池化层的输出。训练过程中,ResNet骨干网络的所有参数都会被微调,以更好地适应目标任务。
#### 3.2.3 文本编码器(DistilBERT)
对于一条新闻,我们使用DistilBert-Tokenizer对其内容进行分词,在令牌序列的开头添加分类令牌[CLS],在末尾添加分隔令牌[SEP]。生成的输入形式为:
X=\[\[CLS\],x1,...,xn,\[SEP\]\],X=\[\\texttt\{\[CLS\]\},x\_\{1\},\\ldots,x\_\{n\},\\texttt\{\[SEP\]\}\],其中nn是原始令牌的数量。这些令牌随后被输入DistilBERT,该模型将其映射到一个上下文相关的低维嵌入空间:
W=DistilBERT\(X\)∈RN×d,W=\\text\{DistilBERT\}\(X\)\\in\\mathbb\{R\}^\{N\\times d\},其中d=768d=768是distilbert-base-uncased模型的隐藏层大小。与原始BERT不同,DistilBERT移除了令牌类型嵌入和第二个段输入,提供了更轻量、更快的替代方案,同时保留了BERT 95%的语言理解能力。
在我们的实现中,DistilBERT编码器的输出是一个形状为\(B,S,768\)\(B,S,768\)的张量,其中BB是批大小,SS是序列长度。为了获得固定大小的句子表示,我们对令牌嵌入应用均值池化操作,并由注意力掩码加权。具体来说:
wmean=∑i=1Nwi⋅mi∑i=1Nmi,\\mathbf\{w\}\_\{\\text\{mean\}\}=\\frac\{\\sum\_\{i=1\}^\{N\}\\mathbf\{w\}\_\{i\}\\cdot m\_\{i\}\}\{\\sum\_\{i=1\}^\{N\}m\_\{i\}\},
见图注说明图1:F2IND架构框架。其中wi\\mathbf\{w\}\_\{i\}是第ii个令牌的隐藏表示,mim\_\{i\}是对应的注意力掩码。这为每个输入序列生成一个形状为\(B,768\)\(B,768\)的单一向量,作为最终的句子嵌入。
#### 3.2.4 基于注意力的融合模块
来自ResNet-50模块和DistilBERT编码器的张量形状分别确定为X=2048和Y=768。在将嵌入输入至ANFIS模块进行模型的模糊推理实现之前,两种嵌入都被投影到一个大小为512的公共维度空间。投影后,我们沿着模态维度将它们堆叠起来,得到一个形状为\(B,2,512\)\(B,2,512\)的组合张量,其中BB表示批大小。
为了计算每种模态的注意力logits,我们应用一个MLP将每个模态特定的嵌入投影为一个标量值,产生形状为\(B,2\)\(B,2\)的注意力分数。这些分数随后通过softmax重新归一化,确保它们在模态之间总和为1。然后,嵌入被聚合并且重塑回一个形状为\(B,512\)\(B,512\)的统一表示,随后用于最终的二值分类任务。这些步骤可以用数学公式表示如下:
x∈RB×2048,y∈RB×768\\displaystyle x\\in\\mathbb\{R\}^\{B\\times 2048\},\\quad y\\in\\mathbb\{R\}^\{B\\times 768\}(1)x^=Wxx∈RB×512,y^=Wyy∈RB×512\\displaystyle\\hat\{x\}=W\_\{x\}x\\in\\mathbb\{R\}^\{B\\times 512\},\\quad\\hat\{y\}=W\_\{y\}y\\in\\mathbb\{R\}^\{B\\times 512\}z=\[x^;y^\]∈RB×2×512\\displaystyle z=\[\\hat\{x\};\\hat\{y\}\]\\in\\mathbb\{R\}^\{B\\times 2\\times 512\}a=softmax\(MLP\(z\)\)∈RB×2\\displaystyle a=\\text\{softmax\}\(\\text\{MLP\}\(z\)\)\\in\\mathbb\{R\}^\{B\\times 2\}h=∑i=12ai⋅zi∈RB×512\\displaystyle h=\\sum\_\{i=1\}^\{2\}a\_\{i\}\\cdot z\_\{i\}\\in\\mathbb\{R\}^\{B\\times 512\}
#### 3.2.5 模糊逻辑推理(ANFIS)
1. 1.输入层:ANFIS的输入由批处理的4维向量组成,即形状为\(B,n\)\(B,n\),其中n=4n=4。令X=\{x1,x2,x3,x4\}X=\\\{x\_\{1\},x\_\{2\},x\_\{3\},x\_\{4\}\\\}表示输入特征。
2. 2.模糊化层:每个输入值使用两个高斯隶属函数进行模糊化。每个隶属函数的均值 \(μj\\mu\_\{j\}\) 和标准差 \(σj\\sigma\_\{j\}\) 是可学习参数。对于输入XX中的每个特征xix\_\{i\},计算其属于每个模糊集的隶属度,使用高斯函数:G\(xi;μj,σj\)=exp\(−\(xi−μj\)22σj2\),G\(x\_\{i\};\\mu\_\{j\},\\sigma\_\{j\}\)=\\exp\\left\(\-\\frac\{\(x\_\{i\}\-\\mu\_\{j\}\)^\{2\}\}\{2\\sigma\_\{j\}^\{2\}\}\\right\),其中i∈\[1,n\]i\\in\[1,n\],j∈\[1,f\]j\\in\[1,f\],n=4n=4,f=2f=2(隶属函数个数)。因此,对于每个输入XX,计算n×f=4×2=8n\\times f=4\\times 2=8个隶属度值。该层的输出形状为\(B,n,f\)\(B,n,f\)。
3. 3.规则层:所有可能的模糊规则通过跨特征的隶属度值的乘积(AND运算)进行评估。模糊规则总数为fn=24=16f^\{n\}=2^\{4\}=16。第kk条规则的激发强度fkf\_\{k\}计算如下:fk=∏i=1nG\(xi;μj,σj\),f\_\{k\}=\\prod\_\{i=1\}^\{n\}G\(x\_\{i\};\\mu\_\{j\},\\sigma\_\{j\}\),其中k∈\[1,fn\]k\\in\[1,f^\{n\}\]。然后对激发强度进行归一化:f^k=fk∑i=1fnfi。\\hat\{f\}\_\{k\}=\\frac\{f\_\{k\}\}\{\\sum\_\{i=1\}^\{f^\{n\}\}f\_\{i\}\}。该层的输出形状为\(B,fn\)\(B,f^\{n\}\)。
4. 4.规则加权层:每条规则贡献一个加权输出,计算如下:zk=∑i=1naikxi\+bk,z\_\{k\}=\\sum\_\{i=1\}^\{n\}a\_\{ik\}x\_\{i\}\+b\_\{k\},其中aika\_\{ik\}和bkb\_\{k\}是每条规则和每个输入特征的可训练参数。该层的输出形状也为\(B,fn\)\(B,f^\{n\}\)。
5. 5.输出层:最终输出是归一化激发强度与规则输出的加权和:z=∑k=1fnf^k⋅zk。z=\\sum\_\{k=1\}^\{f^\{n\}\}\\hat\{f\}\_\{k\}\\cdot z\_\{k\}。应用Sigmoid激活函数产生一个介于0和1之间的置信分数:Output=σ\(z\)=11\+e−z。\\text\{Output\}=\\sigma\(z\)=\\frac\{1\}\{1\+e^\{-z\}\}。最终输出形状为\(B,1\)\(B,1\),表示批处理中每个输入的假新闻概率。
### 3.3 评估指标
F1分数是精确率和召回率的综合评价指标,我们将其作为评估我们方法和基线的指标。召回率、精确率和F1的公式如下所示:
F1=2⋅Precision⋅RecallPrecision\+RecallF1=\\frac\{2\\cdot\\text\{Precision\}\\cdot\\text\{Recall\}\}\{\\text\{Precision\}\+\\text\{Recall\}\}
### 3.4 实验设置
我们方法的实验设置细节讨论如下:
1. 1.数据不平衡与预处理:数据集包含56,713篇新闻文章的文本-图像对。然而,由于缺失图像链接,大量样本在图像预处理中被移除。所有分辨率高于224×224224\\times 224的图像都被调整大小为224×224224\\times 224,并使用ImageNet数据集统计数据进行归一化。最终得到25,19525,195个样本,包括24,57624,576篇真新闻文章和619619篇假新闻文章。文本批处理中也使用了动态填充。
2. 2.DistilBERT:应用了0.30的dropout率,并使用均值池化获取固定大小的句子嵌入。
3. 3.ResNet-50:移除了最终分类层,并保持所有模型参数可训练以实现微调。
4. 4.注意力融合:使用轻量级MLP和softmax实现了模态级别的注意力机制。相似文章
KITE:一种融合文本、图像和知识图谱的三模态Transformer用于假新闻检测
介绍了KITE,一种联合建模文本、图像和知识图谱的三模态Transformer框架,用于假新闻检测,在基准数据集上优于单模态和双模态基线。
使用可解释语言特征检测AI生成假新闻的跨提示词泛化研究
来自肯尼索州立大学的研究人员利用可解释语言特征(词汇多样性、可读性、情感特征)对检测AI生成假新闻的跨提示词泛化能力展开研究。在一种提示策略上训练、在另一种提示策略上测试的随机森林分类器取得了0.988至1.000的AUC值,表明这些特征能够捕捉AI生成文本的稳定且可泛化的属性。
朝向校准、公平且准确的深度伪造检测
介绍Face-Fairness (FF),一种用于深度伪造检测中偏见缓解的即插即用框架,其中Face-Feature Tuning (FFT)作为首个无需人口统计标签的公平性方法,能够提升群体准确率并缩小不同人口统计群体间的性能差距。
微缺陷暴露宏观伪造:通过局部分布变化检测AI生成图像
一种局部分布感知的检测框架,通过放大微观尺度上的统计异常来识别AI生成图像,具有更高的准确率,在多个基准测试中优于基线检测器。
面向低资源阿尔及利亚方言的端到端混合谣言检测框架
本文提出了一种面向低资源阿尔及利亚方言社交媒体内容的端到端混合谣言检测框架,通过结合Transformer嵌入和经典分类器,达到了0.84的F1分数。