MIT研究人员教AI模型解读图表

MIT News — Artificial Intelligence 论文

摘要

MIT研究人员开发了ChartNet,这是一个包含超过一百万张图表的数据集,用于训练视觉语言模型更准确地解读图表。他们的开源模型在图表理解任务上表现优于规模大得多的商业模型。

<p>为了在快节奏的全球市场中加速并优化决策,企业可能会部署生成式人工智能模型来帮助总结和解读市场摘要与财务报告中常见的图表。</p><p>但即便是最新的视觉语言模型有时也难以胜任这项任务,因为它要求模型整合视觉、数值和语言理解。一家投资于最先进模型的公司仍可能收到不准确或不完整的信息。</p><p>为了弥补这一性能差距,来自MIT和MIT-IBM计算研究实验室的研究人员开发了一个面向AI用户的多方面资源,专门用于教授视觉语言模型(VLM)如何有效解读图表。</p><p>他们采用了一种新颖的数据生成方法,构建了一个包含超过一百万张多样化图表的最新数据集。该数据集还编码了每张图表图像的许多视觉、语言和数值组件,使模型能够对图表中的信息进行稳健推理。</p><p>研究人员利用这个名为<a href="https://arxiv.org/pdf/2603.27064" target="_blank">ChartNet</a>的数据集训练了一系列开源VLM。其中许多较小的模型在数据提取和图表总结等任务上显著优于规模大得多的商业模型。</p><p>通过让开源模型超越商业对手,ChartNet可能使预算有限的小公司更容易利用AI。该开源数据集可用于改进AI模型在商业趋势分析和科学图表解读等任务上的能力。</p><p>“我们将ChartNet设计为图表理解的一站式解决方案,基本涵盖了AI模型和训练该模型的从业者可能需要的所有内容。我们希望我们的工作能激励研究人员用不需要无限计算量的较小模型实现最先进性能,”MIT电气工程与计算机科学(EECS)研究生、关于<a href="https://arxiv.org/pdf/2603.27064" target="_blank">ChartNet</a>论文的第一作者Jovana Kondic表示。</p><p>这篇论文的合作者还包括来自MIT、MIT-IBM计算研究实验室和IBM Research的多位共同作者,包括IBM Research研究员Pengyuan Li;IBM Research资深科学家Dhiraj Joshi;IBM Research软件工程师Isaac Sanchez;MIT施瓦茨曼计算学院战略产业合作总监、MIT-IBM计算研究实验室MIT主任、计算机科学与人工智能实验室(CSAIL)高级研究科学家Aude Oliva;以及MIT-IBM计算研究实验室首席科学家兼经理Rogerio Feris。该研究将在IEEE计算机视觉与模式识别会议上展示。</p><p><strong>数据集瓶颈</strong></p><p>研究人员在开发生成式AI模型方面取得了巨大进展,这些模型擅长自然语言处理和自然图像的推理。但Kondic表示,针对解读图表中复杂多模态数据的研究较少。</p><p>然而,对于几乎所有行业的大中小企业来说,图表理解都是一项关键任务。</p><p>“金融行业依赖图表。如果视觉语言模型能够从图表中提取信息,比如趋势描述,这将促进下游许多工作流程,”Joshi说。</p><p>缺乏高质量的训练数据是阻碍准确解读图表的VLM发展的主要瓶颈。许多数据集包含从互联网上抓取的有限图表图像,往往缺乏必要的规模以及帮助模型解读底层数据的额外信息。</p><p>“视觉语言模型与人类大脑不同,可能在训练期间需要看到数千个例子才能可靠地将某物识别为折线图,”Kondic说。</p><p>研究人员试图通过生成合成数据来克服这些不足。合成数据是由算法人工生成的,旨在模仿真实数据的统计特性。</p><p>ChartNet数据集包含超过一百万张高质量图表图像,以及生成每张图表对应的代码、文本描述和包含数值信息的表格。此外,每个数据点还包括问答对,用于训练模型如何正确回答关于图表图像的问题。</p><p>“这些额外数据模式引导模型连接和对齐图表图像编码的不同信息片段,”Kondic说。</p><p><strong>数据生成</strong></p><p>为了构建ChartNet,研究人员创建了一个两步合成数据生成流水线。</p><p>首先,他们的自动系统将任何预先存在的图表图像集转换为代码。然后,系统迭代地扩充该代码,以改变每张图表的不同方面,例如图表类型、数据值、主题、颜色等。</p><p>“我们可以从用作种子的一张图表开始,然后生成数百个它的变体。这样我们就能够构建一个包含超过一百万张多样化图像的数据集,”Kondic解释道。</p><p>他们还引入了一个自动质量检查流程,以确保合成数据的高质量。该流程验证代码是否可执行,以及渲染的图表图像是否准确和清晰。</p><p>“我们不仅仅想生成多样化的样本。我们还希望信息以有意义的方式呈现,”她说。</p><p>ChartNet还包括一组由人类专家标注的图表数据点。这提供了对其他类型图表和带有有效性保证的支持数据的访问。</p><p>从业者可以使用标注数据对现有VLM进行微调,从而进一步提升特定应用的性能,Joshi补充道。</p><p>研究人员通过训练IBM的Granite Vision系列模型以及其他几种不同规模的开源模型,并在各种图表解读任务上评估它们,测试了ChartNet。该数据集提升了所有模型在图表重建、图表数据提取、图表总结和图表问答方面的准确性。</p><p>借助ChartNet,小型开源模型持续优于规模大得多的商业模型。</p><p>“许多先前的训练数据集只专注于回答关于图表的简单问题。我们试图通过ChartNet超越这一点,生成支持稳健图表理解所有方面的数据,”Kondic说。</p><p>未来,研究人员计划通过纳入具有更高复杂度的数据来继续扩展ChartNet。他们还希望借鉴研究社区的反馈。</p><p>这项研究部分由MIT-IBM计算研究实验室资助。</p>
查看原文
查看缓存全文

缓存时间: 2026/06/03 15:35

# MIT研究人员教AI模型解读图表 来源:https://news.mit.edu/2026/mit-researchers-teach-ai-models-to-interpret-charts-0603 在快节奏的全球市场中,为加速并优化决策,企业可能会部署生成式AI模型来帮助总结和解读市场摘要及财务报告中常见的图表。 但即便是最先进的视觉语言模型,有时也难以胜任这项任务,因为它要求模型整合视觉、数值和语言理解能力。一家投资了顶尖模型的公司仍可能收到不准确或不完整的信息。 为填补这一性能差距,来自MIT和MIT-IBM计算研究实验室的研究人员开发了一种面向AI用户的多方面资源,专门用于训练视觉语言模型(VLM)有效解读图表。 他们采用一种新颖的数据生成方法,构建了一个包含超过100万种多样图表的顶尖数据集。该数据集还编码了每个图表图像的多种视觉、语言和数值组件,使模型能够对图表中的信息进行稳健推理。 研究人员利用这个名为**ChartNet**(https://arxiv.org/pdf/2603.27064)的数据集训练了一系列开源VLM。其中许多小型模型在数据提取和图表总结等任务上,显著超越了规模大数个数量级的商业模型。 通过使开源模型超越其商业对手,ChartNet能够让预算有限的小公司更容易利用AI。该开源数据集可用于提升AI模型在业务趋势分析、科学图表解读等任务上的能力。 "我们开发ChartNet的初衷是打造一个图表理解的'一站式'资源,涵盖AI模型以及训练该模型的实践者可能需要的一切。我们希望我们的工作能激励研究人员在无需无限计算量的情况下,用更小的模型达到顶尖性能。"Jovana Kondic表示,她是麻省理工学院电气工程与计算机科学(EECS)研究生,也是关于ChartNet的论文(https://arxiv.org/pdf/2603.27064)的第一作者。 与她共同撰写该论文的还有来自MIT、MIT-IBM计算研究实验室和IBM Research的众多合著者,包括IBM Research研究职员Pengyuan Li;IBM Research资深科学家Dhiraj Joshi;IBM Research软件工程师Isaac Sanchez;MIT施瓦茨曼计算学院战略行业参与主任、MIT-IBM计算研究实验室MIT主任,以及计算机科学与人工智能实验室(CSAIL)资深研究科学家Aude Oliva;以及MIT-IBM计算研究实验室首席科学家兼经理Rogerio Feris。该研究将在IEEE计算机视觉与模式识别会议上展示。 **数据集瓶颈** 研究人员在开发擅长自然语言处理和理解自然图像的生成式AI模型方面取得了巨大进展。但Kondic指出,在解读图表中包含的复杂多模态数据方面,相关研究较少。 然而,对几乎每个行业的大小企业而言,图表理解都是一项关键任务。 "金融行业依赖图表。如果视觉语言模型能够从图表中提取信息,比如趋势描述,那将极大地促进下游工作流程。"Joshi说。 高质量训练数据的缺乏是阻碍VLM准确解读图表发展的主要瓶颈。许多数据集包含从互联网上提取的有限图表图像,并且往往缺乏必要的规模和额外信息来帮助模型解读底层数据。 "与人类大脑不同,视觉语言模型在训练期间可能需要看到数千个示例,才能可靠地识别出某物是折线图。"Kondic说。 研究人员试图通过生成合成数据来克服这些不足。合成数据是由算法人为生成的,用于模仿真实数据的统计特性。 ChartNet数据集包含超过100万张高质量的图表图像,以及生成每张图表对应的代码、一段文本描述和包含其数值信息的表格。此外,每个数据点还包括问答对,用于教模型如何正确回答关于图表图像的问题。 "这些额外的数据模式引导模型连接并对齐图表图像编码的不同信息片段。"Kondic说。 **数据生成** 为构建ChartNet,研究人员创建了一个两步合成数据生成管道。 首先,他们的自动化系统将任何预先存在的图表图像集转换为代码。然后,系统迭代地增强这些代码,以改变每个图表的不同方面,如图表类型、数据值、主题、颜色等。 "我们可以从作为种子的单个图表开始,得出其数百种增强版本。这就是我们能够构建包含超过100万张多样化图像的数据集的方法。"Kondic解释道。 他们还纳入了一个自动质量检查过程,以确保合成数据的高质量。该过程验证代码是否可执行,以及渲染出的图表图像是否准确和干净。 "我们不仅仅想生成多样化的样本,我们还希望信息以有意义的方式呈现。"她说。 ChartNet还包括一组由人类专家标注的图表数据点。这提供了对额外图表类型和支持数据的访问,这些数据具有有效性保证。 实践者可以使用标注数据来微调现有的VLM,进一步提升特定应用的性能,Joshi补充道。 **测试结果** 研究人员通过训练IBM的Granite Vision系列模型以及若干其他不同尺寸的开源模型,并在各种图表解读任务上对它们进行评估,来测试ChartNet。该数据集提升了所有模型在图表重建、图表数据提取、图表总结和图表问答方面的准确性。 借助ChartNet,小型开源模型一贯优于大得多的商业模型。 "许多先前的训练数据集只专注于回答关于图表的简单问题。我们试图通过ChartNet超越这一点,生成支持稳健图表理解所有方面的数据。"Kondic说。 未来,研究人员计划通过纳入具有更高复杂性的数据来继续扩展ChartNet。他们还希望借鉴研究社区的反馈。 该研究部分由MIT-IBM计算研究实验室资助。

相似文章

ChartArena:跨语言、场景和格式的图表解析基准测试

Hugging Face Daily Papers

ChartArena是一个全面的双语图表解析基准,覆盖八个图表系列和三种视觉场景(数字、打印、手绘),使用人机协同标注流程和格式无关评估。对26个多模态大语言模型的评估显示,虽然专有模型整体领先,但开源模型正在追赶,而图示结构和手绘场景仍具挑战性。

这个图表在骗我吗?误导性可视化的自动检测

arXiv cs.CL

本文介绍了Misviz,一个包含2,604个真实可视化和57,665个合成可视化的基准数据集,标注了12种误导性设计违规,能够自动检测欺骗性图表。该工作评估了最先进的多模态大语言模型和基于规则的系统在这一具有挑战性的任务上的表现,填补了用于训练AI模型以对抗数据可视化虚假信息的资源空白。

让AI更像人类一样观察世界

Google DeepMind Blog

Google DeepMind在《自然》杂志发表了一篇论文,详细介绍了一种将AI视觉表征与人类认知结构对齐的方法,从而提升模型的鲁鲁棒性和可靠性。