@jerryjliu0：上周我们重做了Liteparse，使其成为目前最快的PDF解析器。Liteparse的一个被低估之处是它不仅能提取文本，还能提供边界框，让编码代理能够精确绘制出原始文档的审计轨迹。

X AI KOLs Following 2026/06/01 20:51 工具

pdf-parser llama-index bounding-boxes open-source document-parser coding-agent

摘要

Jerry Liu宣布重做后的LiteParse是一款快速的PDF解析器，可提供用于审计轨迹的边界框，并附带示例演示。

上周我们重做了Liteparse，使其成为目前最快的PDF解析器。Liteparse的一个被低估之处是它不仅能提取文本，还能提供边界框，让编码代理能够精确绘制出原始文档的审计轨迹。例如，查看我们在liteparse_samples中编译的深度研究技能：https://github.com/jerryjliu/liteparse_samples… 来试试Liteparse吧：https://github.com/run-llama/liteparse… 我们正在努力让Liteparse变得更好（例如支持Markdown）。欢迎随时提问题、提交PR，并告诉我们您的功能请求。

查看原文

查看缓存全文

缓存时间: 2026/06/01 21:36

上周我们重装了Liteparse，使其成为市面上最快的PDF解析器。Liteparse的一个被低估的地方是它不只给你文本。它还提供边界框，编码代理可以用它来精确回溯到原始文档。例如，查看我们在liteparse_samples中编译的深度研究技能：https://github.com/jerryjliu/liteparse_samples… 来看看liteparse：https://github.com/run-llama/liteparse… 我们正在努力让liteparse变得更好（例如Markdown支持）。请随时提交issue、PR，并告知我们您的功能需求。

jerryjliu/liteparse_samples

来源：https://github.com/jerryjliu/liteparse_samples

LiteParse 示例

交互式演示展示了 LiteParse（https://developers.llamaindex.ai/liteparse/）—— 一个由 LlamaIndex（https://www.llamaindex.ai）开发的快速、本地化、无模型的文档解析器。

示例

解析器对比

LiteParse vs PyPDF vs PyMuPDF 在真实政府和财务文档上的并排对比。左侧是原始PDF，右侧通过标签页切换每个解析器提取的文本。

解析器对比

快速开始： 在浏览器中打开 comparison/output/comparison.html。

特性：

来自5个真实世界PDF（FDIC、美联储、CMS、IRS、WHO）的8个文档章节
嵌入式PDF查看器与解析文本并列显示
每个解析器的文档处理时间

视觉引用

对解析文档进行精确关键词搜索——精确查看每个匹配出现在源PDF页面上的位置，并在页面图像上直接高亮显示边界框。这是一个简单的子字符串匹配演示（非模糊搜索或RAG搜索）。更多信息请参阅视觉引用指南（https://developers.llamaindex.ai/liteparse/guides/visual-citations/）。

视觉引用

快速开始： 在浏览器中打开 visual_citations/output/visual-citations.html。

特性：

所有文档的交互式关键词搜索
在渲染页面图像上叠加边界框
源页面与解析文本并排显示，匹配项高亮

研究文档（Claude Code 技能）

询问有关文档的问题——获得带有视觉源引用的答案。将其安装为 Claude Code（https://claude.com/claude-code）技能并使用 /research-docs 调用。该技能解析您的文档，让Claude回答您的问题，并生成一个HTML报告，其中包含答案和带有边界框高亮的引用源页面。

研究文档

安装：

npx skills add run-llama/liteparse_samples --skill research_docs

用法： /research-docs ./my-pdfs What is the total revenue?

特性：

解析LiteParse支持的任何文档（PDF、DOCX、PPTX、XLSX、图片）以及纯文本
基于AI的答案，带有精确引用的源引用
源页面图像上的边界框高亮
每个引用的PDF查看器切换
自包含的HTML报告

使用您自己的数据重新生成

将您的PDF添加到 data/ 文件夹
编辑相关示例文件夹中的 docs.json 以配置您的文档和页面
安装依赖并运行：

pip install -r requirements.txt

# 重新生成比较
cd comparison && python generate.py

# 重新生成视觉引用
cd visual_citations && python generate.py

# 安装研究文档技能
cp -r research_docs ~/.claude/skills/research-docs
# 然后使用：/research-docs ./data "Your question here"

docs.json 格式

每个示例都有一个 docs.json，控制要处理的文档和页面：

[
  {
    "name": "我的文档标题",
    "file": "my_document.pdf",
    "pages": [0, 1, 2],
    "source": "example.com",
    "desc": "可选描述（仅用于比较）"
  }
]

file：PDF文件名（必须存在于 data/ 中）
pages：要解析的页码（从0开始）
source：归属标签
desc：在比较卡片中显示的描述（仅比较示例）

数据

包含的PDF是可公开获取的政府文档：

文件	来源	描述
`cms_pfs.pdf`	cms.gov	CMS Medicare Physician Fee Schedule（CY 2026）
`fdic_qbp.pdf`	fdic.gov	FDIC Quarterly Banking Profile
`fed_h41.pdf`	federalreserve.gov	Federal Reserve H.4.1 Statistical Release
`irs_1040.pdf`	irs.gov	IRS Form 1040 — U.S. Individual Income Tax Return
`who_indicators.pdf`	who.int	WHO Core Health Indicators

要求

Python 3.9+
依赖：liteparse, pypdf, pymupdf（参见 requirements.txt）

pip install -r requirements.txt

链接

LiteParse 文档（https://developers.llamaindex.ai/liteparse/）
LiteParse GitHub（https://github.com/run-llama/liteparse）
LlamaIndex（https://www.llamaindex.ai）

Jerry Liu (@jerryjliu0):

我们创建了世界上最快的PDF解析器 ⚡️

并且它比任何其他开源、无模型的PDF解析器（pymupdf、pypdf、markitdown、pdftotext、opendataloader、pymupdf4llm）都更准确

介绍LiteParse v2 - 我们将整个库重写为Rust。

@jerryjliu0：上周我们重做了Liteparse，使其成为目前最快的PDF解析器。Liteparse的一个被低估之处是它不仅能提取文本，还能提供边界框，让编码代理能够精确绘制出原始文档的审计轨迹。

jerryjliu/liteparse_samples

LiteParse 示例

示例

解析器对比

视觉引用

研究文档（Claude Code 技能）

使用您自己的数据重新生成

docs.json 格式

数据

要求

链接

相似文章

@jerryjliu0: 以光速解析PDF（此视频为1倍速）简直是电影

@jerryjliu0：LiteParse，我们的开源文档解析器，在将复杂 PDF 布局、文本和表格解析为清晰的空间网格方面表现出色……

@jerryjliu0: 我们让Claude在理解PDF方面变得更好更快。秘诀不仅仅是打造最快的免费文档解析器…

@jerryjliu0: LiteParse，我们的开源/基于Rust的文档解析器，运行速度之快，连Claude Fable 5都难以置信 🔥

@itsafiz：使用 LiteParse 构建了一个超快的 PDF 解析服务！LiteParse 是由 @llama_index 开发的独立开源 PDF 解析工具 f…

提交意见反馈