@jerryjliu0:上周我们重做了Liteparse,使其成为目前最快的PDF解析器。Liteparse的一个被低估之处是它不仅能提取文本,还能提供边界框,让编码代理能够精确绘制出原始文档的审计轨迹。
摘要
Jerry Liu宣布重做后的LiteParse是一款快速的PDF解析器,可提供用于审计轨迹的边界框,并附带示例演示。
查看缓存全文
缓存时间: 2026/06/01 21:36
上周我们重装了Liteparse,使其成为市面上最快的PDF解析器。Liteparse的一个被低估的地方是它不只给你文本。它还提供边界框,编码代理可以用它来精确回溯到原始文档。例如,查看我们在liteparse_samples中编译的深度研究技能:https://github.com/jerryjliu/liteparse_samples… 来看看liteparse:https://github.com/run-llama/liteparse… 我们正在努力让liteparse变得更好(例如Markdown支持)。请随时提交issue、PR,并告知我们您的功能需求。
jerryjliu/liteparse_samples
来源:https://github.com/jerryjliu/liteparse_samples
LiteParse 示例
交互式演示展示了 LiteParse(https://developers.llamaindex.ai/liteparse/)—— 一个由 LlamaIndex(https://www.llamaindex.ai)开发的快速、本地化、无模型的文档解析器。
示例
解析器对比
LiteParse vs PyPDF vs PyMuPDF 在真实政府和财务文档上的并排对比。左侧是原始PDF,右侧通过标签页切换每个解析器提取的文本。
解析器对比
快速开始: 在浏览器中打开 comparison/output/comparison.html。
特性:
- 来自5个真实世界PDF(FDIC、美联储、CMS、IRS、WHO)的8个文档章节
- 嵌入式PDF查看器与解析文本并列显示
- 每个解析器的文档处理时间
视觉引用
对解析文档进行精确关键词搜索——精确查看每个匹配出现在源PDF页面上的位置,并在页面图像上直接高亮显示边界框。这是一个简单的子字符串匹配演示(非模糊搜索或RAG搜索)。更多信息请参阅视觉引用指南(https://developers.llamaindex.ai/liteparse/guides/visual-citations/)。
视觉引用
快速开始: 在浏览器中打开 visual_citations/output/visual-citations.html。
特性:
- 所有文档的交互式关键词搜索
- 在渲染页面图像上叠加边界框
- 源页面与解析文本并排显示,匹配项高亮
研究文档(Claude Code 技能)
询问有关文档的问题——获得带有视觉源引用的答案。将其安装为 Claude Code(https://claude.com/claude-code)技能并使用 /research-docs 调用。该技能解析您的文档,让Claude回答您的问题,并生成一个HTML报告,其中包含答案和带有边界框高亮的引用源页面。
研究文档
安装:
npx skills add run-llama/liteparse_samples --skill research_docs
用法: /research-docs ./my-pdfs What is the total revenue?
特性:
- 解析LiteParse支持的任何文档(PDF、DOCX、PPTX、XLSX、图片)以及纯文本
- 基于AI的答案,带有精确引用的源引用
- 源页面图像上的边界框高亮
- 每个引用的PDF查看器切换
- 自包含的HTML报告
使用您自己的数据重新生成
- 将您的PDF添加到
data/文件夹 - 编辑相关示例文件夹中的
docs.json以配置您的文档和页面 - 安装依赖并运行:
pip install -r requirements.txt
# 重新生成比较
cd comparison && python generate.py
# 重新生成视觉引用
cd visual_citations && python generate.py
# 安装研究文档技能
cp -r research_docs ~/.claude/skills/research-docs
# 然后使用:/research-docs ./data "Your question here"
docs.json 格式
每个示例都有一个 docs.json,控制要处理的文档和页面:
[
{
"name": "我的文档标题",
"file": "my_document.pdf",
"pages": [0, 1, 2],
"source": "example.com",
"desc": "可选描述(仅用于比较)"
}
]
- file:PDF文件名(必须存在于
data/中) - pages:要解析的页码(从0开始)
- source:归属标签
- desc:在比较卡片中显示的描述(仅比较示例)
数据
包含的PDF是可公开获取的政府文档:
| 文件 | 来源 | 描述 |
|---|---|---|
cms_pfs.pdf | cms.gov | CMS Medicare Physician Fee Schedule(CY 2026) |
fdic_qbp.pdf | fdic.gov | FDIC Quarterly Banking Profile |
fed_h41.pdf | federalreserve.gov | Federal Reserve H.4.1 Statistical Release |
irs_1040.pdf | irs.gov | IRS Form 1040 — U.S. Individual Income Tax Return |
who_indicators.pdf | who.int | WHO Core Health Indicators |
要求
- Python 3.9+
- 依赖:
liteparse,pypdf,pymupdf(参见 requirements.txt)
pip install -r requirements.txt
链接
- LiteParse 文档(https://developers.llamaindex.ai/liteparse/)
- LiteParse GitHub(https://github.com/run-llama/liteparse)
- LlamaIndex(https://www.llamaindex.ai)
Jerry Liu (@jerryjliu0):
我们创建了世界上最快的PDF解析器 ⚡️
并且它比任何其他开源、无模型的PDF解析器(pymupdf、pypdf、markitdown、pdftotext、opendataloader、pymupdf4llm)都更准确
介绍LiteParse v2 - 我们将整个库重写为Rust。
相似文章
@jerryjliu0: 以光速解析PDF(此视频为1倍速)简直是电影
Jerry Liu宣布了LiteParse v2,一款基于Rust的PDF解析器,据称是目前最快、最准确的开源、无模型PDF解析器。
@jerryjliu0:LiteParse,我们的开源文档解析器,在将复杂 PDF 布局、文本和表格解析为清晰的空间网格方面表现出色……
LiteParse 是一款基于启发式规则的开源 PDF 解析器,无需依赖 ML 模型即可快速将复杂布局、文本和表格转换为整洁的空间网格。
@jerryjliu0: LiteParse 是为 AI 智能体设计的最佳开源、无模型文档解析器。支持解析 50 多种文档类型,并…
LlamaIndex 发布了 liteparse-server,这是一个可自托管、无模型的 HTTP API,能够以高空间保真度和隐私保护能力解析多种多样的文档类型。
run-llama/liteparse
LiteParse 是 run-llama 推出的一个独立的开源 PDF 解析工具,提供快速、本地的空间文本提取及边界框,支持多种编程语言和平台。
@llama_index: 当我们说“LiteParse 无处不在”时,我们是认真的。我们的 WASM 包轻量、精简,专为浏览器和…
LiteParse 是一个基于 WASM 的轻量级 PDF 解析器,专为浏览器和边缘运行时(如 Cloudflare Workers)设计,可在边缘环境中高效解析文档。