空间启动优于语义提示:一种提高 LLM 图表数据提取准确率的基于网格的方法
摘要
本文探讨了提高大语言模型(LLM)在图表数据提取中准确率的方法,研究发现,通过坐标网格进行的空间启动策略显著优于语义提示策略。
arXiv:2605.08220v1 公告类型:新论文
摘要:从科学图表中自动化提取数据是大规模文献分析的一项关键任务。尽管多模态大语言模型(LLM)展现出潜力,但其在非标准化图表上的准确率仍然是一个挑战。这提出了一个关键的研究问题:提高模型性能的最有效策略是高层级的语义启动,还是低层级的空间启动?本文对这两种不同的策略进行了对比研究。我们描述了针对语义方法(如两阶段元数据优先框架和思维链 Chain-of-Thought)的探索性实验,这些方法未能产生具有统计显著性的改进。相比之下,我们提出了一种简单但高效的空间启动方法:在分析之前在图表图像上叠加坐标网格。我们在合成数据集上进行的定量实验表明,与基线相比,这种基于网格的方法显著降低了数据提取误差(SMAPE 从 25.5% 降至 19.5%,p < 0.05)。我们得出结论,对于当前的多模态模型,在此类任务中,提供明确的空间上下文比提供高层级的语义指导更有效、更可靠。
查看缓存全文
缓存时间: 2026/05/12 07:11
# 空间提示优于语义提示:一种基于网格的方法来改进大型语言模型在图表数据提取中的准确性 来源:https://arxiv.org/abs/2605.08220 查看 PDF (https://arxiv.org/pdf/2605.08220) > 摘要:从科学图表中自动化提取数据是大规模文献分析的关键任务。尽管多模态大型语言模型(LLMs)展现出潜力,但其在非标准化图表上的准确率仍然是一个挑战。这提出了一个关键研究问题:哪种策略最能提高模型性能——高级语义提示还是低级空间提示?本文对这两种截然不同的策略进行了比较研究。我们描述了使用语义方法(如两阶段元数据优先框架和思维链)的探索性实验,这些方法未能产生具有统计学意义的改进。相比之下,我们提出了一种简单但非常有效的空间提示方法:在分析之前将坐标网格叠加到图表图像上。我们在合成数据集上的定量实验表明,与基线相比,这种基于网格的方法显著降低了数据提取误差(SMAPE 从 25.5% 降至 19.5%,p < 0.05)。我们得出结论,对于当前一代的多模态模型,提供明确的空间上下文比高级语义指导更适合这类任务,是一种更有效且可靠的策略。 ## 投稿历史 来自:Andrei Lazarev [查看邮箱 (https://arxiv.org/show-email/4329bd06/2605.08220)] **[v1]** 周三,2026年5月6日 13:38:29 UTC (476 KB)
相似文章
面向有限语义表格数据的大型语言模型:来自工业车辆改装预测的证据
本文评估了基于大型语言模型(LLM)的策略(嵌入、提示、混合)与经典表格模型在一个包含哈希化类别特征的工业车辆改装预测数据集上的表现。研究发现,树集成整体上优于LLM,但嵌入和混合方法仍有价值,而在缺乏语义线索时直接提示失败。
从数据到洞察:探索程序思维提示在图表摘要中的应用
本文介绍了一种基于程序思维提示(Program-of-Thoughts prompting)的零样本图表摘要策略,其中轻量级视觉语言模型(VLMs)生成Python程序来计算统计数据,从而在事实准确性上优于现有方法。
面向比较图的可靠LLM评估的提示扰动
提出了一种提示扰动框架,该框架生成扰动的提示变体,通过图级一致性检查过滤掉结构不一致的比较模式,然后应用标准排名方法产生更可靠的LLM排名。
思维链削弱多模态大模型的视觉空间推理能力
研究表明,由于捷径学习和仅凭文本臆造视觉细节,思维链提示会损害多模态大模型在视觉空间推理方面的表现。
LVLMs在指代通信中的隐式与显式提示策略
本文研究了关于大型视觉语言模型(LVLMs)能否协调高效指代表达的看似矛盾的发现。作者表明,当明确提示时,模型可以实现效率,但从隐式提示中无法推断出效率需求,揭示了人类与AI通信之间的关键差异。