具备视觉能力的LLM与OCR在长文档(包括图表、图片、表格等)问答中的对比
摘要
一项对比测试,将具备视觉能力的LLM(原生PDF阅读模式)与基于OCR的流程在30份长且图片密集的PDF上进行比较,发现带有布局提取的OCR在图表/表格密集的页面上仍优于视觉模型,且失败率为0%,而原生PDF为7%,尽管样本量较小且许多差距在噪声范围内。
我对具备视觉能力的LLM(即“直接附加PDF让模型阅读”模式)与基于OCR的流程在MMLongBench-Doc([https://github.com/mayubo2333/MMLongBench-Doc](https://github.com/mayubo2333/MMLongBench-Doc))中的30份长且图片密集的PDF上进行了对比测试。总共171个问题,使用Claude Sonnet 4.5作为LLM。重试后的结果:
|方法|准确率|$/查询|
|:-|:-|:-|
|LlamaCloud premium + full-context|59.6%|$0.1885|
|Azure premium + full-context|58.5%|$0.2051|
|Azure basic + full-context|54.4%|$0.1062|
|Agentic RAG|53.2%|$0.0827|
|**原生PDF(视觉LLM)**|**52.0%**|**$0.2552**|
|LlamaCloud basic + full-context|50.9%|$0.1049|
原生PDF在准确率上排名第5(共6个),且是成本最高的分支,每次查询$0.2552。两个发现:视觉模型在图表密集和表格密集的页面上表现不佳,而这正是“视觉LLM让OCR过时”声称最常指向的领域。带有布局提取的高级OCR在这些页面上表现更好。原生PDF分支存在7%的内在失败率(与PDF文件大小相关),且重试后仍未能解决。首次通过失败共27次,每个失败查询进行5次指数退避重试,其中15次恢复,12次永久失败。这些失败集中在两份特定的PDF中,原因可预测的传输层问题(博客中已指出)。基于OCR的分支在重试后失败率为0%。
注意事项:30份文档是较小样本。我进行了麦克尼马尔配对检验(McNemar's pairwise test)以确定哪些差距是真实的,哪些在噪声范围内。在15对头对头比较中,只有3个在α=0.05水平上具有统计显著性,因此表格中的顺序部分由噪声导致。视觉模型与OCR的对比结果通过了检验。完整文章:[https://www.surfsense.com/blog/agentic-rag-vs-long-context-llms-benchmark](https://www.surfsense.com/blog/agentic-rag-vs-long-context-llms-benchmark)
相似文章
18 款 LLM OCR 实测(7k+ 次调用):便宜/旧模型常吊打旗舰,完整数据集+框架已开源 [R]
对 18 款大模型在 OCR 任务上的全面评测(7k+ 次调用)发现,便宜或旧模型往往能以极低成本达到与旗舰模型相当的准确率,数据集与评测框架已完全开源。
@jerryjliu0: 使用VLM解析PDF的一个缺点是难以保证输出文本的*正确性*和正确的阅读顺序……
Jerry Liu讨论了使用视觉语言模型进行PDF解析所面临的挑战,特别是关于确保文本正确性和保持正确阅读顺序的同时避免出现幻觉问题。
@techNmak:1.7B 参数轻量 VLM,在 OmniDocBench 上碾压巨头的 OCR 新王者
仅 1.7B 参数的多语言文档解析器 dots.ocr,用轻量体积实现 SOTA,证明文档理解无需巨无霸模型。
dots.ocr:单个视觉语言模型中的多语言文档布局解析
本文介绍了 dots.ocr,一个统一的视觉语言模型,它联合学习布局检测、文本识别和关系理解,用于多语言文档布局解析。它在 OmniDocBench 上取得了最先进的结果,并引入了覆盖 126 种语言的 XDocParse 基准。
PaddlePaddle/PaddleOCR
PaddleOCR是一个功能强大、轻量级的OCR工具包,可将PDF和图像转换为结构化数据,适用于AI应用,支持100多种语言,旨在连接文档与大语言模型。