@itsclelia: 你真的拥有你的文档解析基础设施吗?在 @llama_index,我们想让它更简单,所以构建了…
摘要
LlamaIndex 推出了 liteparse-server,这是一个开源、可自托管的 HTTP 后端,用于解析 PDF、图像和 Office 文档,支持空间布局提取、OCR 和截图生成,专为 AI 和数据工作流设计。
查看缓存全文
缓存时间: 2026/05/13 18:25
你真的拥有自己的文档解析基础设施吗?在 @llama_index,我们想让这件事变得更简单,于是构建了 liteparse-server——一个基于 LiteParse 的轻量级 HTTP 后端,能够从 PDF、图片和 Office 文档中解析并生成页面截图。它 100% 开源,完全可自托管,你的数据始终属于你。liteparse-server 使用 TypeScript 和 @UseExpressJS 构建,可以作为 @Docker 容器运行,也可部署在无服务器环境中。我们还提供了开箱即用的示例,包含限流、缓存以及与 @Redisinc、@JaegerTracing、@PrometheusIO、@grafana 等工具兼容的 OpenTelemetry 追踪和指标收集。阅读我写的博客文章:https://llamaindex.ai/blog/liteparse-server-self-hostable-document-parsing… Star 这个 GitHub 仓库:https://github.com/run-llama/liteparse-server…
介绍 liteparse-server:面向 AI 工作流的自托管文档解析与 OCR
来源:https://www.llamaindex.ai/blog/liteparse-server-self-hostable-document-parsing
文档解析难题
大多数 AI 和数据工作流在处理文档时都会遇到同样的瓶颈。你的数据存在于 PDF、Word 文档、电子表格、扫描图片中,要从它们中提取干净的文本,难度远超想象。
朴素的方法(pypdf、基本提取库)会丢失空间布局,而云端解析 API 虽然解决了准确性,却引入了延迟、按页计费、隐私风险以及网络依赖。与此同时,仅为了提取文本而运行一个完整的 LLM,对于任何需要扩展的场景来说都既昂贵又缓慢。
相比之下,LiteParse 利用开源工具提供了快速、本地、准确的文档解析。它提取带有精确空间布局信息的文本,为每个文本项生成边界框,并报告它们在页面上的位置。即使看起来不显眼,空间保真度也很重要:它正是让表格提取、章节检测和引用依据这类下游任务真正有效的基础。
liteparse-server 将 LiteParse 封装成一个 HTTP API,使其可以作为专用的、自托管的解析后端,从任何语言或服务中使用。
它能解析什么
LiteParse 可以处理实际工作流中遇到的全系列文档格式:
- PDF——带有空间布局和边界框的本地文本提取;对扫描页面和内嵌图片进行选择性 OCR
- Office 文档——Word(.docx、.doc、.odt、.rtf)、PowerPoint(.pptx、.ppt)、电子表格(.xlsx、.xls、.csv),通过 LibreOffice 处理
- 图片——.jpg、.png、.tiff、.webp、.svg 等,通过 ImageMagick 处理
OCR 默认使用内置的 Tesseract.js,同时支持 EasyOCR、PaddleOCR 或任何自定义 OCR 服务器的插件,当你在处理大规模文档集合并需要 GPU 加速的准确性时,这会是一个有用的补充。
混合格式的批量任务开箱即用:将服务器指向一个包含 PDF、Word 文件和图片的目录,它会在一次操作中完成转换和解析。
两个端点
POST /parse —— 解析单个文档
上传任意支持的文件,获取带有文本和边界框的结构化页面数据,或者如果只需要纯文本,也可以直接获取。
# 带布局的结构化 JSON
curl -X POST http://localhost:5000/parse -F "[email protected]"
# 纯文本
curl -X POST "http://localhost:5000/parse?text=true" -F "[email protected]"
JSON 响应包含一个 pages 数组。每个页面携带提取的文本项及其位置信息,准备好供分块管道、RAG 检索器或布局分析模型使用。
POST /screenshots —— 为视觉模型和引用提供页面图片
将文档页面渲染为 PNG 图片,并以换行分隔的 JSON 形式返回。每个响应行包含页码、尺寸和 Base64 编码的图片数据。
该端点专为视觉能力强的 LLM 工作流以及需要视觉引用的应用设计:截图文档,将图片连同问题一起发送给模型,然后获得基于页面实际视觉布局的答案。
curl -X POST "http://localhost:5000/screenshots?pages=1,2,3" \
-F "[email protected]"
两个端点都接受 config 字段,以便通过 LiteParse 配置支持的选项进行细粒度控制(https://developers.llamaindex.ai/liteparse/guides/library-usage/#configuration)。
两种部署模式
LibreOffice 和 ImageMagick 已包含在 liteparse-server Docker 镜像 中。但是,如果你想直接用 Node 或 Bun(不带 Docker)运行服务器,则需要先在系统上自行安装 LibreOffice 和 ImageMagick。
最小服务器设置
精简版服务器没有基础设施依赖,你可以用 Bun/Node 在本地运行,或作为 Docker 容器运行:
# 使用 bun
bun run start-slim:bun
# 使用 node
npm run start-slim:node
docker build -f slim.Dockerfile -t liteparse-server-slim .
docker run -p 5000:5000 liteparse-server-slim
全栈部署
当你将 liteparse-server 作为共享基础设施运行时,完整的 Docker Compose 设置(https://github.com/run-llama/liteparse-server/tree/main/examples/docker-compose)提供了一个示例,包含生产服务所需的一切:
- Redis 缓存 —— 解析结果按文件内容(和配置)的 SHA-256 哈希进行缓存。相同的文档不会重复解析(在缓存条目的过期时间内)。TTL:单个文件 1 小时,批量 12 小时,截图 24 小时。
- Redis 限流 —— 每个 IP 每 60 秒 100 个请求,在服务器层面进行任何解析工作前强制执行。
- 分布式追踪 —— 通过 OpenTelemetry 和 Jaeger:每个请求都生成一个包含文件名、大小、MIME 类型、解析模式、页数等跨度属性的追踪,由 Jaeger 收集并展示。
- 指标 —— 通过 Prometheus 和 Grafana:请求吞吐量、解析持续时间、页数、文件大小、缓存命中率和错误计数,所有指标已预先配置,在服务器运行时由 Prometheus 直接拉取。
Grafana 仪表盘,展示由 Prometheus 从 liteparse-server 收集的指标
开始使用
源码托管在 GitHub 上:github.com/run-llama/liteparse-server(http://github.com/run-llama/liteparse-server),你可以从那里开始使用服务器。你也可以在文档中找到完整指南(https://developers.llamaindex.ai/liteparse/guides/server-usage/)。
你也可以拉取预构建的 Docker 镜像,该镜像自包含且立即可用:
docker pull ghcr.io/run-llama/liteparse-server:main
docker run -p 5000:5000 ghcr.io/run-llama/liteparse-server:main
服务器启动后,将运行在 http://localhost:5000,你可以用以下命令进行测试:
# 解析
curl -X POST "http://localhost:5000/parse" \
-F "[email protected]"
# 截图
curl -X POST "http://localhost:5000/screenshots" \
-F "[email protected]"
完整的 LiteParse 文档(包括 OCR 配置、多格式支持、边界框输出以及 TypeScript 和 Python 库 API)也可在 developers.llamaindex.ai/liteparse(http://developers.llamaindex.ai/liteparse)上获取。
相似文章
@jerryjliu0:我们当前的核心使命是利用 AI 解决文档 OCR 问题。我们所有的产品线,从商业产品(LlamaParse)到……
LlamaIndex 对其官网进行了全面改版,并重申了以 AI 驱动文档 OCR 的核心使命,旗下产品涵盖商业产品 LlamaParse 以及开源工具 LiteParse 和 ParseBench。LlamaParse 采用基于 VLM 的智能文档理解技术,可大规模处理复杂版式、表格、图表及手写文字。
@jerryjliu0: LiteParse 是为 AI 智能体设计的最佳开源、无模型文档解析器。支持解析 50 多种文档类型,并…
LlamaIndex 发布了 liteparse-server,这是一个可自托管、无模型的 HTTP API,能够以高空间保真度和隐私保护能力解析多种多样的文档类型。
@jerryjliu0:LiteParse,我们的开源文档解析器,在将复杂 PDF 布局、文本和表格解析为清晰的空间网格方面表现出色……
LiteParse 是一款基于启发式规则的开源 PDF 解析器,无需依赖 ML 模型即可快速将复杂布局、文本和表格转换为整洁的空间网格。
@llama_index: 是否曾希望您的代理能像读取纯文本一样轻松读取PDF、图像和Office文档?或者将安全性…
sandboxed-lit 是一个 Rust CLI 代理,通过 LiteParse 和 microsandbox 安全解析 PDF、图像和 Office 文档,结合本地文件访问与沙盒化的 Bash 环境。
@oliviscusAI: 您现在可以用一个 17 亿参数的模型解析任何文档,它就是 dots-ocr。一个处理文本、表格等的系统。
本文介绍了 dots-ocr,这是一个拥有 17 亿参数的模型,能够在超过 100 种语言中解析文档中的文本、表格、公式和图像,而无需单独的 OCR 处理流程。