从数据到洞察:探索程序思维提示在图表摘要中的应用

arXiv cs.CL 论文

摘要

本文介绍了一种基于程序思维提示(Program-of-Thoughts prompting)的零样本图表摘要策略,其中轻量级视觉语言模型(VLMs)生成Python程序来计算统计数据,从而在事实准确性上优于现有方法。

arXiv:2605.28874v1 Announce Type: new Abstract: 图表通过结构化视觉表示在传达数值数据见解方面发挥着关键作用。然而,语义视觉理解和数值推理的需求阻碍了对图表的准确描述,使得图表摘要成为一项具有挑战性的任务。尽管视觉语言模型(VLMs)近期取得了进展,但现有方法缺乏验证统计事实正确性的稳健机制,且计算负担沉重。为解决这一差距,本文探索了一种利用零样本学习策略,通过Python程序作为中介,激励轻量级VLMs执行计算推理,从而为图表理解导出有效的摘要统计信息。具体而言,我们引入了一种新颖的图表到字典辅助任务,相比传统的图表到表格方法提供了更灵活的表示,特别适合与程序思维(PoT)策略集成。实验结果表明,我们的策略在语义和事实指标上与现有图表摘要方法性能相当。代码可在 https://anonymous.4open.science/r/ZeroShot-PoT-C2T-5A6B 获取。
查看原文
查看缓存全文

缓存时间: 2026/05/29 09:13

# 从数据到洞察:探索用于图表摘要的思维程序提示

来源:https://arxiv.org/html/2605.28874

Wei Zhang  
阿德莱德大学  
阿德莱德,南澳大利亚州,澳大利亚  
wei\.e\.zhang@adelaide\.edu\.au

###### 摘要  

图表通过结构化的视觉表示在传达数值数据洞察方面发挥着关键作用。然而,语义视觉理解和数值推理要求阻碍了对图表的准确描述,使得图表摘要成为一项具有挑战性的任务。尽管视觉语言模型(VLM)近期取得了进展,但现有方法缺乏验证统计事实正确性的稳健机制,且计算开销大。为弥补这一差距,本文探索了一种策略,即利用零样本学习来驱动轻量级VLM执行计算推理,通过Python程序作为中间件导出有效的摘要统计量,从而实现图表理解。具体来说,我们引入了一种新颖的图表到字典辅助任务,相比传统的图表到表格方法,提供了更灵活的表示形式,使其特别适合与思维程序(PoT)策略集成。实验结果表明,我们的策略在语义指标和事实指标上与现有图表摘要方法性能相当。代码可在 https://anonymous.4open.science/r/ZeroShot-PoT-C2T-5A6B 获取。

# 从数据到洞察:探索用于图表摘要的思维程序提示

Yutong Qu  
阿德莱德大学  
阿德莱德,南澳大利亚州,澳大利亚  
yutong\.qu@adelaide\.edu\.au  

Wei Zhang  
阿德莱德大学  
阿德莱德,南澳大利亚州,澳大利亚  
wei\.e\.zhang@adelaide\.edu\.au

## 1 引言

参见图注  
图1:Pew数据集中一个图表示例及其Python字典和统计量表示。斜体表示图表摘要中的L2/L3内容。删除线表示幻觉错误和引发错误的标记。

随着量化数据可视化需求的上升,数字媒体的日益普及推动了数据可视化的快速增长,进而带来了自动图表理解、信息提取和摘要等关键研究领域Huang et al. (2024a (https://arxiv.org/html/2605.28874#bib.bib2)); Zhang et al. (2024 (https://arxiv.org/html/2605.28874#bib.bib13)); Choi et al. (2025 (https://arxiv.org/html/2605.28874#bib.bib1))。视觉语言模型(VLM)的近期进展在这一领域展现出了潜力Masry et al. (2023 (https://arxiv.org/html/2605.28874#bib.bib42)); Han et al. (2023 (https://arxiv.org/html/2605.28874#bib.bib33)); Ko et al. (2024 (https://arxiv.org/html/2605.28874#bib.bib43)); Masry et al. (2024 (https://arxiv.org/html/2605.28874#bib.bib34)); Meng et al. (2024 (https://arxiv.org/html/2605.28874#bib.bib14)); Zhang et al. (2024 (https://arxiv.org/html/2605.28874#bib.bib13)); Liu et al. (2024b (https://arxiv.org/html/2605.28874#bib.bib4)); 然而,现有方法在生成高质量摘要方面仍面临困难,特别是对于L2/L3内容——即Lundgard和Satyanarayan (2022 (https://arxiv.org/html/2605.28874#bib.bib48)); Kantharaj et al. (2022 (https://arxiv.org/html/2605.28874#bib.bib6)); Tang et al. (2023 (https://arxiv.org/html/2605.28874#bib.bib7))所识别的统计量及其关系(例如最小值、最大值)/ 感知和认知现象(例如趋势),如图1所示。挑战在于生成的摘要与图表实际数据内容之间存在高度不一致的匹配,导致事实不一致和幻觉。这要么是由于未能解析图表中的文本,要么是未能界定可视化数据的数值。此外,在对图表元素进行语义解析时,VLM在执行关于图表模式的复杂推理以及将统计推理与图表元素结合方面存在困难Liu et al. (2024b (https://arxiv.org/html/2605.28874#bib.bib4))。尽管存在普遍挑战,但当前基于VLM的图表理解方法虽已展现出一定性能,仍面临两个主要挑战:(1) 现有实现是针对图表相关指令数据进行微调或预训练的。尽管视觉编码器与语言解码器之间的这种对齐提升了泛化性能,但此类训练过程引入了显著的计算开销,使其资源密集且在计算受限条件下具有挑战性;(2) 这些任务在理解图表不同元素之间的结构交互方面仍然是一个挑战。有效的视觉语言理解尤其需要两个关键过程:(a) 对图表进行全面的语义布局理解;(b) 稳健的统计推理以准确捕捉和分析底层数据Liu et al. (2023b (https://arxiv.org/html/2605.28874#bib.bib3))。

鉴于这些挑战,我们研究了用于图表摘要的VLM零样本且无需训练的方法。思维程序(PoT)Chen et al. (2023 (https://arxiv.org/html/2605.28874#bib.bib5))是一种零样本提示方法,最初提出用以将计算与推理分离,从而增强模型的统计推理能力。PoT在图表问答(QA)中通过Python程序取得的成功Zhang et al. (2024 (https://arxiv.org/html/2605.28874#bib.bib13)),激励了我们将其探索应用于图表摘要,研究PoT引导VLM通过Python程序作为中间步骤执行数值计算和逻辑推理的有效性,该过程侧重于生成结构更复杂、更广泛的句子,而非仅仅是简洁的答案。我们没有像近期的PoT研究工作那样依赖提供的真实图表数据表格,而是认识到在现实场景中,大多数图表缺乏配套的数据表格。因此,我们研究了一种用于图表摘要的PoT策略流水线,该策略同时生成图表数据表格。我们的主要贡献如下:

- • 我们提出了一个集成PoT的免训练流水线,在零样本学习设置中增强轻量级VLM的图表摘要能力。
- • 我们证明PoT提示策略在某些场景下优于直接提示(Direct)和多模态思维链(MCoT)方法,特别是在不同类型的VLM、图表和图表摘要中的补充文本数据方面。
- • 我们进行了全面的评估,涵盖词汇、语义和事实维度,以验证PoT提示策略在图表摘要中的有效性。

## 2 文献综述

### 2.1 图表理解

**基于模板的** 早期自动图表理解方法,特别是图表摘要子任务,常常依赖基于规划的架构和基于模板的生成方法Mittal et al. (1998 (https://arxiv.org/html/2605.28874#bib.bib17)); Fasciano and Lapalme (2000 (https://arxiv.org/html/2605.28874#bib.bib18)); Green et al. (2004 (https://arxiv.org/html/2605.28874#bib.bib19)); Reiter (2007 (https://arxiv.org/html/2605.28874#bib.bib20)); Ferres et al. (2007 (https://arxiv.org/html/2605.28874#bib.bib10), 2013 (https://arxiv.org/html/2605.28874#bib.bib21))。近期的基于模板研究专注于利用图表数值数据中的统计量(例如最小值、最大值、趋势)来呈现事实Demir et al. (2012 (https://arxiv.org/html/2605.28874#bib.bib24)); Cui et al. (2019 (https://arxiv.org/html/2605.28874#bib.bib22)); Srinivasan et al. (2019 (https://arxiv.org/html/2605.28874#bib.bib23)); Wang et al. (2020 (https://arxiv.org/html/2605.28874#bib.bib25)),将统计分析转化为文本摘要输出。一些研究利用现成的OCR(光学字符识别)工具或检测器将图表数据表示为文本表格和其他表示形式,依赖流水线方法Singh et al. (2019 (https://arxiv.org/html/2605.28874#bib.bib40)); Sidorov et al. (2020 (https://arxiv.org/html/2605.28874#bib.bib41)); Methani et al. (2020 (https://arxiv.org/html/2605.28874#bib.bib39)); Hu et al. (2021 (https://arxiv.org/html/2605.28874#bib.bib37)); Fu et al. (2022 (https://arxiv.org/html/2605.28874#bib.bib36)); Kantharaj et al. (2022 (https://arxiv.org/html/2605.28874#bib.bib6)); Liu et al. (2023a (https://arxiv.org/html/2605.28874#bib.bib38))。最近,ResNetHe et al. (2016 (https://arxiv.org/html/2605.28874#bib.bib27))编码器和LSTM解码器被用于处理图表并生成标注Chen et al. (2020a (https://arxiv.org/html/2605.28874#bib.bib26))。然而,与数据驱动模型相比,基于模板的方法难以处理复杂的视觉模式和数值推理,且在生成通用表述和匹配词汇选择变化方面成本高昂。

**预训练的** 随着深度学习技术的进步,神经网络和TransformerVaswani et al. (2017 (https://arxiv.org/html/2605.28874#bib.bib11))改进了通用计算机视觉,近期工作开始采用编码器-解码器架构来提升图表理解Wang et al. (2025 (https://arxiv.org/html/2605.28874#bib.bib9)),包括TransformerSingh and Shekhar (2020 (https://arxiv.org/html/2605.28874#bib.bib31)); Obeid and Hoque (2020 (https://arxiv.org/html/2605.28874#bib.bib28)); Kantharaj et al. (2022 (https://arxiv.org/html/2605.28874#bib.bib6)); Lee et al. (2023 (https://arxiv.org/html/2605.28874#bib.bib12))、LSTMSpreafico and Carenini (2020 (https://arxiv.org/html/2605.28874#bib.bib29))、CNN+LSTMHsu et al. (2021 (https://arxiv.org/html/2605.28874#bib.bib30))以及VLM Liu et al. (2023b (https://arxiv.org/html/2605.28874#bib.bib3)),这些模型在视觉和文本数据上进行了预训练,通常带有专门的文本和图像编码器,并且在需要多模态联合理解的任务中展现出显著潜力。然而,在生成的摘要中确保事实和逻辑连贯性仍然面临挑战,尤其是在处理需要数值推理的复杂图表时。

参见图注  
图2:给定图表时实施思维程序(PoT)的过程。可以将其视为增强统计推理以提取摘要统计量(通常包括总数、最小值和最大值)以及包含数值的标签的过程。

**微调的** 除了预训练模型,对预训练模型进行微调Tang et al. (2023 (https://arxiv.org/html/2605.28874#bib.bib7))和指令微调Ouyang et al. (2022 (https://arxiv.org/html/2605.28874#bib.bib32))也已成为提升LLM和VLM性能的广泛采用替代方案Liu et al. (2023b (https://arxiv.org/html/2605.28874#bib.bib3)); Zhou et al. (2023 (https://arxiv.org/html/2605.28874#bib.bib64)); Masry et al. (2023 (https://arxiv.org/html/2605.28874#bib.bib42)); Han et al. (2023 (https://arxiv.org/html/2605.28874#bib.bib33)); Ko et al. (2024 (https://arxiv.org/html/2605.28874#bib.bib43)); Huang et al. (2024b (https://arxiv.org/html/2605.28874#bib.bib63)); Masry et al. (2024 (https://arxiv.org/html/2605.28874#bib.bib34)); Meng et al. (2024 (https://arxiv.org/html/2605.28874#bib.bib14)); Zhang et al. (2024 (https://arxiv.org/html/2605.28874#bib.bib13)); Liu et al. (2024a (https://arxiv.org/html/2605.28874#bib.bib62), b (https://arxiv.org/html/2605.28874#bib.bib4)); Masry et al. (2025 (https://arxiv.org/html/2605.28874#bib.bib61))。指令微调用于泛化模型的语言能力,与预训练方法相比,减少了摘要中生成的重复和幻觉Meng et al. (2024 (https://arxiv.org/html/2605.28874#bib.bib14))。然而,这些方法通常依赖图表的数据表格,未能捕捉图表中存在的视觉伪影的细微差异。此外,它们巨大的参数量给计算受限环境下的部署带来了显著挑战。

### 2.2 图表表示

将图表表示为结构化数据,图表到表格Meng et al. (2024 (https://arxiv.org/html/2605.28874#bib.bib14))任务将其以表格形式呈现,但往往以丢失图表中的细节为代价。与数据表格类似,场景图可以很容易地格式化为基于网络的图表Tang et al. (2023 (https://arxiv.org/html/2605.28874#bib.bib7))。代码格式也被考虑,现有方法定义了两种典型的图表到代码方法:(1) 图表解渲染Liu et al. (2023b (https://arxiv.org/html/2605.28874#bib.bib3)); Lee et al. (2023 (https://arxiv.org/html/2605.28874#bib.bib12)); 以及 (2) 思维程序Chen et al. (2023 (https://arxiv.org/html/2605.28874#bib.bib5)); Zhang et al. (2024 (https://arxiv.org/html/2605.28874#bib.bib13))。然而,代码的主要目的是针对定义较窄的问题进行图表重建或问答任务,而非表示整个图表。本文提出了一个图表到表格的辅助任务,即采用Python代码格式的图表到字典,利用VLM的图表理解能力将图表表示为Python字典。

### 2.3 提示

受思维链(CoT)提示Wei et al. (2022 (https://arxiv.org/html/2605.28874#bib.bib8))在提升推理能力方面成功的启发,研究人员正在将类似机制扩展到VLM用于图表理解,试图模仿人类视觉分析的认知过程。这通过多模态目的的提示实现,即多模态思维链(MCoT)Wang et al. (2025 (https://arxiv.org/html/2605.28874#bib.bib9)); Liu et al. (2024b (https://arxiv.org/html/2605.28874#bib.bib4))推理,它将推理依据从文本扩展到视觉模态Choi et al. (2025 (https://arxiv.org/html/2605.28874#bib.bib1))。与MCoT形成对比,PoTChen et al. (2023 (https://arxiv.org/html/2605.28874#bib.bib5)); Luo et al. (2024 (https://arxiv.org/html/2605.28874#bib.bib60))的中间推理步骤被表述为可执行程序,同时在复杂数值推理任务中执行程序以生成关于图表数据的推理和统计计算。在本工作中,我们的流水线方法建立在这些进展之上,专注于零样本图表摘要中的PoT提示。通过将PoT概念扩展到图表的视觉领域,它可以减少语言模型在输出计算时通常出现的幻觉,因为它为VLM提供了更明确、可验证的数值推理过程Zhang et al. (2024 (https://arxiv.org/html/2605.28874#bib.bib13)),通过将复杂计算委托给代码解释器,有可能生成更准确、更基于事实的摘要。本工作与现有工作的不同之处在于,专门研究将可执行代码作为中间推理步骤生成对轻量级VLM在图表摘要中的益处和局限性。

## 3 方法

我们提出了一个集成PoT的流水线,以增强VLM对图表数据摘要进行统计推理的能力。所提出的PoT集成图表摘要流水线的示意图如图2所示。我们的提示可以在附录C中找到。

参见图注  
图3:将图表(顶部)表示为Python字典(底部)。

### 3.1 图表表示为VLM生成的Python字典

为了使图表能够与代码交互,图表需要以一种可以与Python解释器交互的方式表示。如图所示

相似文章

适合 <2000 token 的轻量级摘要小模型

Reddit r/LocalLLaMA

一位新手在尝试用 Qwen2.5-7B-Instruct 给员工笔记做摘要时遭遇幻觉,现求助适用于 2000 token 以内、能合并同类标签的小模型及提示策略。

INSIGHTS: 基于示范的时间序列预测摘要

arXiv cs.LG

INSIGHTS 是一种模型无关的方法,通过生成多样化、信息丰富的样本摘要来提供时间序列模型的全局解释,这些摘要捕捉特定领域的行为,在用户研究中优于局部归因方法。

用示例预测符号程序和提示程序的性能

arXiv cs.LG

本文研究使用贝叶斯抛硬币模型对符号程序(如Python)和提示程序进行性能预测,发现符号程序的性能是全有或全无的,而提示程序具有分散的先验分布,并介绍了RAP(检索近似先验)用于性能预测。