具备视觉能力的LLM与OCR在长文档(包括图表、图片、表格等)问答中的对比

Reddit r/artificial 新闻

摘要

一项对比测试,将具备视觉能力的LLM(原生PDF阅读模式)与基于OCR的流程在30份长且图片密集的PDF上进行比较,发现带有布局提取的OCR在图表/表格密集的页面上仍优于视觉模型,且失败率为0%,而原生PDF为7%,尽管样本量较小且许多差距在噪声范围内。

我对具备视觉能力的LLM(即“直接附加PDF让模型阅读”模式)与基于OCR的流程在MMLongBench-Doc([https://github.com/mayubo2333/MMLongBench-Doc](https://github.com/mayubo2333/MMLongBench-Doc))中的30份长且图片密集的PDF上进行了对比测试。总共171个问题,使用Claude Sonnet 4.5作为LLM。重试后的结果: |方法|准确率|$/查询| |:-|:-|:-| |LlamaCloud premium + full-context|59.6%|$0.1885| |Azure premium + full-context|58.5%|$0.2051| |Azure basic + full-context|54.4%|$0.1062| |Agentic RAG|53.2%|$0.0827| |**原生PDF(视觉LLM)**|**52.0%**|**$0.2552**| |LlamaCloud basic + full-context|50.9%|$0.1049| 原生PDF在准确率上排名第5(共6个),且是成本最高的分支,每次查询$0.2552。两个发现:视觉模型在图表密集和表格密集的页面上表现不佳,而这正是“视觉LLM让OCR过时”声称最常指向的领域。带有布局提取的高级OCR在这些页面上表现更好。原生PDF分支存在7%的内在失败率(与PDF文件大小相关),且重试后仍未能解决。首次通过失败共27次,每个失败查询进行5次指数退避重试,其中15次恢复,12次永久失败。这些失败集中在两份特定的PDF中,原因可预测的传输层问题(博客中已指出)。基于OCR的分支在重试后失败率为0%。 注意事项:30份文档是较小样本。我进行了麦克尼马尔配对检验(McNemar's pairwise test)以确定哪些差距是真实的,哪些在噪声范围内。在15对头对头比较中,只有3个在α=0.05水平上具有统计显著性,因此表格中的顺序部分由噪声导致。视觉模型与OCR的对比结果通过了检验。完整文章:[https://www.surfsense.com/blog/agentic-rag-vs-long-context-llms-benchmark](https://www.surfsense.com/blog/agentic-rag-vs-long-context-llms-benchmark)
查看原文

相似文章

dots.ocr:单个视觉语言模型中的多语言文档布局解析

Papers with Code Trending

本文介绍了 dots.ocr,一个统一的视觉语言模型,它联合学习布局检测、文本识别和关系理解,用于多语言文档布局解析。它在 OmniDocBench 上取得了最先进的结果,并引入了覆盖 126 种语言的 XDocParse 基准。

PaddlePaddle/PaddleOCR

GitHub Trending (daily)

PaddleOCR是一个功能强大、轻量级的OCR工具包,可将PDF和图像转换为结构化数据,适用于AI应用,支持100多种语言,旨在连接文档与大语言模型。