这个图表在骗我吗?误导性可视化的自动检测
摘要
本文介绍了Misviz,一个包含2,604个真实可视化和57,665个合成可视化的基准数据集,标注了12种误导性设计违规,能够自动检测欺骗性图表。该工作评估了最先进的多模态大语言模型和基于规则的系统在这一具有挑战性的任务上的表现,填补了用于训练AI模型以对抗数据可视化虚假信息的资源空白。
arXiv:2508.21675v3 公告类型:替换
摘要:误导性可视化是社交媒体和网络上虚假信息的重要驱动力。通过违反图表设计原则,它们扭曲数据并导致读者得出不准确的结论。先前的研究表明,人类和多模态大语言模型(MLLMs)都经常被这类可视化所欺骗。自动检测误导性可视化并识别其违反的具体设计规则,可以帮助保护读者并减少虚假信息的传播。然而,AI模型的训练和评估因缺乏大规模、多样化且公开可用的数据集而受限。在本工作中,我们引入了Misviz,一个包含2,604个真实可视化的基准,这些可视化标注了12种误导类型。为了支持模型训练,我们还创建了Misviz-synth,一个包含57,665个可视化的合成数据集,这些可视化使用Matplotlib生成,并基于真实数据表。我们使用最先进的MLLMs、基于规则的系统和图像轴分类器在两个数据集上进行了全面评估。我们的结果表明该任务仍然非常具有挑战性。我们发布了Misviz、Misviz-synth和相关代码。
查看缓存全文
缓存时间: 2026/04/20 08:31
# 这个图表在骗我吗?误导性可视化的自动检测 源:https://arxiv.org/html/2508.21675 Jonathan Tonglet1,2,3, Jan Zimny11footnotemark:11,2, Tinne Tuytelaars2, Iryna Gurevych1 1Ubiquitous Knowledge Processing Lab(UKP Lab)、达姆施塔特工业大学计算机系和应用网络安全国家研究中心 ATHENE 2列日大学电气工程系 3列日大学计算机系 www.ukp.tu-darmstadt.de (https://www.ukp.tu-darmstadt.de/) ###### 摘要 误导性可视化是社交媒体和网络上错误信息的强大驱动力。通过违反图表设计原则,它们扭曲数据,导致读者得出不准确的结论。先前的研究表明,人类和多模态大语言模型(MLLM)经常被这类可视化所欺骗。自动检测误导性可视化并识别其违反的特定设计规则,可以帮助保护读者并减少错误信息的传播。然而,AI 模型的训练和评估受限于缺乏大规模、多样化和开放可用的数据集。在这项工作中,我们引入了 Misviz,一个包含 2,604 个真实世界可视化的基准,这些可视化带有 12 种类型的误导标记。为了支持模型训练,我们还创建了 Misviz-synth,一个包含 57,665 个可视化的合成数据集,这些可视化通过 Matplotlib 生成,基于真实世界数据表。我们使用最先进的 MLLM、基于规则的系统和图像轴分类器对两个数据集进行了全面评估。我们的结果表明这项任务仍然极具挑战性。我们发布了 Misviz、Misviz-synth 和相应的代码。111github.com/UKPLab/acl2026-misviz (https://github.com/UKPLab/acl2026-misviz) ## 1 引言 误导性可视化是指通过违反设计原则来扭曲底层数据的图表,导致读者得出不准确的结论(Tufte 和 Graves-Morris, 1983;Pandey 等人, 2015;Lauer 和 O'Brien, 2020;McNutt 等人, 2020;Lo 等人, 2022;Lisnic 等人, 2023;Lan 和 Liu, 2025)。虽然许多误导性可视化源于无意的设计错误,但恶意行为者也会有意制作误导性可视化来传播虚假信息并操纵公众理解,尤其是在 COVID-19 大流行等危机期间,误导性图表在社交媒体上广泛传播(Correll 和 Heer, 2017;Lisnic 等人, 2023;Tartaglione 和 de Wit, 2025)。 先前的研究表明,人类(Pandey 等人, 2014, 2015;O'Brien 和 Lauer, 2018;Yang 等人, 2021;Ge 等人, 2023;Rho 等人, 2023)和 MLLM(Bendeck 和 Stasko, 2025;Chen 等人, 2025;Pandey 和 Ottley, 2025;Tonglet 等人, 2025)都容易在问答任务中被这类可视化所欺骗。这些图表中的欺骗性特征(或"误导"(Lisnic 等人, 2023))通常隐藏在读者容易忽视的细微细节中,例如坐标轴刻度间隔。此外,误导类型高度多样:最新的分类法识别了 70 多种不同类型,涵盖广泛的图表类型,包括柱状图、饼图和分级地图(Lo 等人, 2022;Lan 和 Liu, 2025)。在某些情况下,多个误导同时影响同一个可视化(Lo 等人, 2022)。 图 1 展示了 12 个真实世界误导性可视化的例子。 图 1:Misviz 中包含的 12 种误导类型的示例。附录 A 解释了这些可视化如何歪曲其基础数据表。 自动分类可视化是否误导,并识别其影响的具体误导类型(如有),可以为图表设计者和读者提供及时的警告,并帮助防止错误信息的传播。该任务被定义为多标签分类问题。虽然早期工作依赖于基于规则的系统(称为 linter)(Hopkins 等人, 2020;Fan 等人, 2022),但最近的研究探索了 MLLM 的使用(Lo 和 Qu, 2025;Alexander 等人, 2024)。然而,这些方法在不同的数据集上进行了评估,这些数据集要么规模很小,要么不开放,限制了可比性并阻碍了进展。 在这项工作中,我们引入了 Misviz,一个大规模、多样化且开放的基准,包含 2,604 个真实世界可视化,涵盖 12 种类型的误导。它反映了检测模型可能标记网络上发布的可视化的场景。在 Misviz 中,70% 的可视化包含多达三个误导,而其余 30% 是非误导的。为了支持模型训练,我们还发布了 Misviz-synth,一个使用 Matplotlib 生成的合成数据集,基于真实世界数据表。Misviz-synth 反映了检测模型协助图表设计者识别无意中引入的误导的场景。该数据集不仅包括可视化本身,还包括其基础数据表、Python 代码片段和轴元数据,使得能够训练图表反渲染模型。 我们使用三种方法进行了广泛的实验:(a)最先进的 MLLM,(b)一个检查轴元数据以查找设计规则违反的新规则型 linter,以及(c)以可视化单独或与轴元数据组合作为输入的新分类器。对于(b)和(c),我们微调 DePlot 作为提取轴元数据的中间步骤。我们的实验针对以下研究问题(RQ)。 RQ1:哪种类型的模型在真实世界或合成实例上性能最佳? RQ2:在合成实例上训练的检测模型能否推广到真实世界情况? RQ3:在合成实例上训练的轴提取模型能否推广到真实世界情况? 我们的结果表明,MLLM 在真实世界可视化上性能最佳,而 linter 和图像轴分类器在合成数据上表现更好,受益于轴提取和误导检测两者的训练数据可用性。虽然微调的 DePlot 可以从 Misviz-synth 提取轴,但它不能很好地推广到 Misviz,降低了 linter 和分类器的性能。 总结而言,我们的贡献如下: (1) 我们引入了 Misviz 和 Misviz-synth,第一个用于误导性可视化检测的大规模开放数据集。 (2) 我们提出了一个新的 linter 和一种新的分类方法,它将图像和提取的轴元数据组合作为输入。 (3) 我们进行了全面的评估和错误分析,突出了每种方法的优缺点,并确定了未来工作的方向。 ## 2 相关工作 | 数据集 | 实例数 | 误导类型 | 图表类型 | 非误导% | 开放访问 | 真实世界 | 多标签 | 轴、表、代码 | |---|---|---|---|---|---|---|---|---| | MISCHA-QA(Arif 等人, 2024) | 8,201 | 43 | 49 | ✓ | ✗ | ✗ | ✗ | | DCDM(Maciborski 等人, 2025) | 24,480 | 53 | 51 | ✓ | ✗ | ✗ | ✗ | | Alexander 等人(2024)-design misleaders | 1,460 | 7 | >55 | ✗ | ✓ | ✗ | ✗ | | Lo 和 Qu(2025) | 150 | 21 | >5 | 16 | ✓ | ✓ | ✗ | ✗ | | Misvisfix(Das 和 Mueller, 2026) | 450 | 74 | >5 | 20 | ✓ | ✓ | ✓ | ✗ | | Misviz-synth(我们的) | 57,665 | 125 | 39 | ✓ | ✗ | ✗ | ✓ | | Misviz(我们的) | 2,604 | 12 | >5 | 31 | ✓ | ✓ | ✓ | ✗ | 表 1:误导性可视化检测的现有数据集。 检测误导性可视化的最初尝试依赖于基于规则的系统,称为 linter(McNutt 和 Kindlmann, 2018;Hopkins 等人, 2020;Chen 等人, 2022)。这些 linter 假定底层数据表或图表代码可用,这限制了其在真实世界场景中的适用性。 Fan 等人(2022)和 Biselli 等人(2025)通过在应用规则检查之前使用 OCR 工具从真实世界可视化中提取表格来克服这些限制。然而,这些真实世界 linter 的准确性在很大程度上取决于中间 OCR 步骤的质量,其可能差异很大(Biselli 等人, 2025)。真实世界 linter 之前在小规模用户研究中进行了评估,有人工纠正 OCR 错误。其他人则探索了 MLLM 用于该任务的潜力。 Lo 和 Qu(2025)在一个包含 150 个真实世界可视化的数据集上评估了四个 MLLM,这些可视化来自 Lo 等人(2022)的语料库中的误导情况。他们发现,当更多的误导类型包含在提示中时,检测准确率下降。 Alexander 等人(2024)专注于 GPT-4,使用来自社交媒体平台 X 的可视化(Lisnic 等人, 2023)。然而,访问该数据集需要付费 API,而且由于平台频繁删除帖子,可重复性进一步受阻。在平行工作中,Das 和 Mueller(2026)提出了一个提示,SOTA MLLM 在 Lo 等人(2022)语料库的一个子集上实现了高准确性。最近,Maciborski 等人(2025)为该任务微调了卷积神经网络,在合成实例上达到了高准确性。表 1 将现有数据集与 Misviz 和 Misviz-synth 进行了比较。Misviz 比 Lo 和 Qu(2025)的数据集大 15 倍多。与 Alexander 等人(2024)不同,它不依赖于付费 API 进行数据收集,并通过在互联网档案馆存档所有实例来确保长期访问。222web.archive.org (https://web.archive.org/)Misviz-synth 比其他合成数据集大两到七倍,并包括更多的误导和图表类型(Arif 等人, 2024;Maciborski 等人, 2025)。与其他合成数据集不同,Misviz-synth 提供基础表、代码和轴元数据。后者对于微调 DePlot 以进行轴提取和回答我们的研究问题是必要的。 ## 3 Misviz ### 3.1 选定的误导 Misviz 涵盖 12 种类型的误导,从 Lo 等人(2022)定义的分类法的 74 个类别中选择,基于四个关键标准。首先,我们排除了在真实世界场景中很少观察到的误导。为了确定这一点,我们使用了 Lo 等人(2022)语料库中的误导频率统计,并排除了所有少于 15 个实例的类别。其次,我们删除了推理误导,即不直接违反图表设计规则的误导,仅在特定声明的背景下欺骗(Lisnic 等人, 2023)。第三,我们删除了混淆而非欺骗的误导。如 Lo 等人(2022)所指出的,分类法既包括扭曲基础数据的误导(本工作的焦点),也包括可能影响可读性或清晰度但不改变数据解释的误导,例如缺少标题或过度绘制。第四,我们排除了需要特定领域知识才能识别的误导。例如,使用红色代表民主党人,蓝色代表共和党人会违反颜色惯例,但检测这种误导需要熟悉美国政治。此类误导需要众包工作者无法达到的领域专长。 我们在下面简要定义了每个选定的误导(Lo 等人, 2022;Ge 等人, 2023;Lan 和 Liu, 2025)。它们一起覆盖了 Lo 等人(2022)真实世界语料库中所有实例的 62.3%。每种都在图 1 和附录 A 中用示例代表。 **表示不当**:显示的数值标签与其视觉编码的大小不匹配;例如,柱子可能与其对应的数值成不成比例地绘制。 **3D**:可视化包含 3D 效果,扭曲视觉编码的大小。 **截断轴**:轴不从零开始,因此夸大了值之间的差异。 **饼图使用不当**:饼图不以部分与整体的关系显示数据。 **不一致的分箱大小**:诸如年份或年龄之类的变量以大小不相等的箱分组。 **离散化连续变量**:连续变量被切割成离散类别,因此夸大了边界情况之间的差异。 **不一致的刻度间隔**:一个轴中的刻度均匀间隔,但其值不均匀,例如,刻度值序列为 10、20、40、45。 **双轴**:有两个独立的平行数值轴,具有不同的刻度。 **折线图使用不当**:折线图以不寻常的方式使用,例如,使用分类数据。 **项目顺序不当**:轴的刻度标签以非传统方式排序,例如,日期不按时间顺序显示。 **反向轴**:轴以与惯例相反的方向显示。 **轴范围不当**:轴范围要么...
相似文章
Mind's Eye:面向多模态大模型的视觉抽象、变换与组合基准
研究者推出 Mind’s Eye,一项包含八道视觉认知任务的基准测试,显示顶级多模态大模型得分不足 50%,而人类可达 80%,暴露出视觉抽象、关系映射与心理变换方面的巨大差距。
TableVista:在视觉和结构复杂性下对多模态表格推理进行基准测试
介绍了 TableVista,这是一个全面的基准测试,用于评估基础模型在视觉和结构复杂性下的多模态表格推理能力,包含 3,000 个问题,扩展为 30,000 个多模态样本。对 29 个模型的评估显示,在复杂布局和仅视觉设置下性能有所下降。
空间启动优于语义提示:一种提高 LLM 图表数据提取准确率的基于网格的方法
本文探讨了提高大语言模型(LLM)在图表数据提取中准确率的方法,研究发现,通过坐标网格进行的空间启动策略显著优于语义提示策略。
AI 安全的 geopolitics:区域大语言模型偏差的因果分析
本文引入了一个概率图模型框架,以因果方式审核大语言模型(LLM)的安全机制,揭示出由于忽视了语境的毒性,标准的观测指标高估了人口统计学偏差。
@tom_doerr:从第一性原理可视化机器学习算法 https://github.com/gavinkhung/machine-learning-visualized…
本文介绍了 Machine Learning Visualized,这是一个 Jupyter Book 和交互式平台,它从第一性原理出发,通过可视化方式实现和推导机器学习算法。