@jerryjliu0:上周我们重做了Liteparse,使其成为目前最快的PDF解析器。Liteparse的一个被低估之处是它不仅能提取文本,还能提供边界框,让编码代理能够精确绘制出原始文档的审计轨迹。

X AI KOLs Following 工具

摘要

Jerry Liu宣布重做后的LiteParse是一款快速的PDF解析器,可提供用于审计轨迹的边界框,并附带示例演示。

上周我们重做了Liteparse,使其成为目前最快的PDF解析器。Liteparse的一个被低估之处是它不仅能提取文本,还能提供边界框,让编码代理能够精确绘制出原始文档的审计轨迹。例如,查看我们在liteparse_samples中编译的深度研究技能:https://github.com/jerryjliu/liteparse_samples… 来试试Liteparse吧:https://github.com/run-llama/liteparse… 我们正在努力让Liteparse变得更好(例如支持Markdown)。欢迎随时提问题、提交PR,并告诉我们您的功能请求。
查看原文
查看缓存全文

缓存时间: 2026/06/01 21:36

上周我们重装了Liteparse,使其成为市面上最快的PDF解析器。Liteparse的一个被低估的地方是它不只给你文本。它还提供边界框,编码代理可以用它来精确回溯到原始文档。例如,查看我们在liteparse_samples中编译的深度研究技能:https://github.com/jerryjliu/liteparse_samples… 来看看liteparse:https://github.com/run-llama/liteparse… 我们正在努力让liteparse变得更好(例如Markdown支持)。请随时提交issue、PR,并告知我们您的功能需求。


jerryjliu/liteparse_samples

来源:https://github.com/jerryjliu/liteparse_samples

LiteParse 示例

交互式演示展示了 LiteParse(https://developers.llamaindex.ai/liteparse/)—— 一个由 LlamaIndex(https://www.llamaindex.ai)开发的快速、本地化、无模型的文档解析器。

示例

解析器对比

LiteParse vs PyPDF vs PyMuPDF 在真实政府和财务文档上的并排对比。左侧是原始PDF,右侧通过标签页切换每个解析器提取的文本。

解析器对比

快速开始: 在浏览器中打开 comparison/output/comparison.html

特性:

  • 来自5个真实世界PDF(FDIC、美联储、CMS、IRS、WHO)的8个文档章节
  • 嵌入式PDF查看器与解析文本并列显示
  • 每个解析器的文档处理时间

视觉引用

对解析文档进行精确关键词搜索——精确查看每个匹配出现在源PDF页面上的位置,并在页面图像上直接高亮显示边界框。这是一个简单的子字符串匹配演示(非模糊搜索或RAG搜索)。更多信息请参阅视觉引用指南(https://developers.llamaindex.ai/liteparse/guides/visual-citations/)。

视觉引用

快速开始: 在浏览器中打开 visual_citations/output/visual-citations.html

特性:

  • 所有文档的交互式关键词搜索
  • 在渲染页面图像上叠加边界框
  • 源页面与解析文本并排显示,匹配项高亮

研究文档(Claude Code 技能)

询问有关文档的问题——获得带有视觉源引用的答案。将其安装为 Claude Code(https://claude.com/claude-code)技能并使用 /research-docs 调用。该技能解析您的文档,让Claude回答您的问题,并生成一个HTML报告,其中包含答案和带有边界框高亮的引用源页面。

研究文档

安装:

npx skills add run-llama/liteparse_samples --skill research_docs

用法: /research-docs ./my-pdfs What is the total revenue?

特性:

  • 解析LiteParse支持的任何文档(PDF、DOCX、PPTX、XLSX、图片)以及纯文本
  • 基于AI的答案,带有精确引用的源引用
  • 源页面图像上的边界框高亮
  • 每个引用的PDF查看器切换
  • 自包含的HTML报告

使用您自己的数据重新生成

  1. 将您的PDF添加到 data/ 文件夹
  2. 编辑相关示例文件夹中的 docs.json 以配置您的文档和页面
  3. 安装依赖并运行:
pip install -r requirements.txt

# 重新生成比较
cd comparison && python generate.py

# 重新生成视觉引用
cd visual_citations && python generate.py

# 安装研究文档技能
cp -r research_docs ~/.claude/skills/research-docs
# 然后使用:/research-docs ./data "Your question here"

docs.json 格式

每个示例都有一个 docs.json,控制要处理的文档和页面:

[
  {
    "name": "我的文档标题",
    "file": "my_document.pdf",
    "pages": [0, 1, 2],
    "source": "example.com",
    "desc": "可选描述(仅用于比较)"
  }
]
  • file:PDF文件名(必须存在于 data/ 中)
  • pages:要解析的页码(从0开始)
  • source:归属标签
  • desc:在比较卡片中显示的描述(仅比较示例)

数据

包含的PDF是可公开获取的政府文档:

文件来源描述
cms_pfs.pdfcms.govCMS Medicare Physician Fee Schedule(CY 2026)
fdic_qbp.pdffdic.govFDIC Quarterly Banking Profile
fed_h41.pdffederalreserve.govFederal Reserve H.4.1 Statistical Release
irs_1040.pdfirs.govIRS Form 1040 — U.S. Individual Income Tax Return
who_indicators.pdfwho.intWHO Core Health Indicators

要求

pip install -r requirements.txt

链接

  • LiteParse 文档(https://developers.llamaindex.ai/liteparse/)
  • LiteParse GitHub(https://github.com/run-llama/liteparse)
  • LlamaIndex(https://www.llamaindex.ai)

Jerry Liu (@jerryjliu0):

我们创建了世界上最快的PDF解析器 ⚡️

并且它比任何其他开源、无模型的PDF解析器(pymupdf、pypdf、markitdown、pdftotext、opendataloader、pymupdf4llm)都更准确

介绍LiteParse v2 - 我们将整个库重写为Rust。

相似文章

run-llama/liteparse

GitHub Trending (daily)

LiteParse 是 run-llama 推出的一个独立的开源 PDF 解析工具,提供快速、本地的空间文本提取及边界框,支持多种编程语言和平台。