@itsclelia: 你真的拥有你的文档解析基础设施吗？在 @llama_index，我们想让它更简单，所以构建了…

X AI KOLs Following 2026/05/12 16:23 工具

open-source document-parsing self-hosted ocr rag developer-tools

摘要

LlamaIndex 推出了 liteparse-server，这是一个开源、可自托管的 HTTP 后端，用于解析 PDF、图像和 Office 文档，支持空间布局提取、OCR 和截图生成，专为 AI 和数据工作流设计。

你真的拥有自己的文档解析基础设施吗？在 @llama_index，我们想让这变得更简单，因此我们构建了 𝗹𝗶𝘁𝗲𝗽𝗮𝗿𝘀𝗲-𝘀𝗲𝗿𝘃𝗲𝗿——一个基于 LiteParse 的轻量级 HTTP 后端，可以解析 PDF、图像和 Office 文档，并生成页面截图。它完全开源，可自行托管，你的数据始终属于你。它使用 TypeScript 和 @UseExpressJS 构建，可以以 @Docker 容器形式运行，或在无服务器环境中部署。我们还提供了现成的示例，用于速率限制、缓存以及使用 @Redisinc、@JaegerTracing、@PrometheusIO 和 @grafana 等工具进行 OpenTelemetry 兼容的链路追踪和指标收集。阅读我写的博文：https://llamaindex.ai/blog/liteparse-server-self-hostable-document-parsing… 在 GitHub 上点赞此仓库：https://github.com/run-llama/liteparse-server…

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/13 18:25

你真的拥有自己的文档解析基础设施吗？在 @llama_index，我们想让这件事变得更简单，于是构建了 liteparse-server——一个基于 LiteParse 的轻量级 HTTP 后端，能够从 PDF、图片和 Office 文档中解析并生成页面截图。它 100% 开源，完全可自托管，你的数据始终属于你。liteparse-server 使用 TypeScript 和 @UseExpressJS 构建，可以作为 @Docker 容器运行，也可部署在无服务器环境中。我们还提供了开箱即用的示例，包含限流、缓存以及与 @Redisinc、@JaegerTracing、@PrometheusIO、@grafana 等工具兼容的 OpenTelemetry 追踪和指标收集。阅读我写的博客文章：https://llamaindex.ai/blog/liteparse-server-self-hostable-document-parsing… Star 这个 GitHub 仓库：https://github.com/run-llama/liteparse-server…

介绍 liteparse-server：面向 AI 工作流的自托管文档解析与 OCR

来源：https://www.llamaindex.ai/blog/liteparse-server-self-hostable-document-parsing

文档解析难题

大多数 AI 和数据工作流在处理文档时都会遇到同样的瓶颈。你的数据存在于 PDF、Word 文档、电子表格、扫描图片中，要从它们中提取干净的文本，难度远超想象。

朴素的方法（pypdf、基本提取库）会丢失空间布局，而云端解析 API 虽然解决了准确性，却引入了延迟、按页计费、隐私风险以及网络依赖。与此同时，仅为了提取文本而运行一个完整的 LLM，对于任何需要扩展的场景来说都既昂贵又缓慢。

相比之下，LiteParse 利用开源工具提供了快速、本地、准确的文档解析。它提取带有精确空间布局信息的文本，为每个文本项生成边界框，并报告它们在页面上的位置。即使看起来不显眼，空间保真度也很重要：它正是让表格提取、章节检测和引用依据这类下游任务真正有效的基础。

liteparse-server 将 LiteParse 封装成一个 HTTP API，使其可以作为专用的、自托管的解析后端，从任何语言或服务中使用。

它能解析什么

LiteParse 可以处理实际工作流中遇到的全系列文档格式：

PDF——带有空间布局和边界框的本地文本提取；对扫描页面和内嵌图片进行选择性 OCR
Office 文档——Word（.docx、.doc、.odt、.rtf）、PowerPoint（.pptx、.ppt）、电子表格（.xlsx、.xls、.csv），通过 LibreOffice 处理
图片——.jpg、.png、.tiff、.webp、.svg 等，通过 ImageMagick 处理

OCR 默认使用内置的 Tesseract.js，同时支持 EasyOCR、PaddleOCR 或任何自定义 OCR 服务器的插件，当你在处理大规模文档集合并需要 GPU 加速的准确性时，这会是一个有用的补充。

混合格式的批量任务开箱即用：将服务器指向一个包含 PDF、Word 文件和图片的目录，它会在一次操作中完成转换和解析。

两个端点

POST /parse —— 解析单个文档

上传任意支持的文件，获取带有文本和边界框的结构化页面数据，或者如果只需要纯文本，也可以直接获取。

# 带布局的结构化 JSON
curl -X POST http://localhost:5000/parse -F "[email protected]"

# 纯文本
curl -X POST "http://localhost:5000/parse?text=true" -F "[email protected]"

JSON 响应包含一个 pages 数组。每个页面携带提取的文本项及其位置信息，准备好供分块管道、RAG 检索器或布局分析模型使用。

POST /screenshots —— 为视觉模型和引用提供页面图片

将文档页面渲染为 PNG 图片，并以换行分隔的 JSON 形式返回。每个响应行包含页码、尺寸和 Base64 编码的图片数据。

该端点专为视觉能力强的 LLM 工作流以及需要视觉引用的应用设计：截图文档，将图片连同问题一起发送给模型，然后获得基于页面实际视觉布局的答案。

curl -X POST "http://localhost:5000/screenshots?pages=1,2,3" \
  -F "[email protected]"

两个端点都接受 config 字段，以便通过 LiteParse 配置支持的选项进行细粒度控制（https://developers.llamaindex.ai/liteparse/guides/library-usage/#configuration）。

两种部署模式

LibreOffice 和 ImageMagick 已包含在 liteparse-server Docker 镜像 中。但是，如果你想直接用 Node 或 Bun（不带 Docker）运行服务器，则需要先在系统上自行安装 LibreOffice 和 ImageMagick。

最小服务器设置

精简版服务器没有基础设施依赖，你可以用 Bun/Node 在本地运行，或作为 Docker 容器运行：

# 使用 bun
bun run start-slim:bun
# 使用 node
npm run start-slim:node

docker build -f slim.Dockerfile -t liteparse-server-slim .
docker run -p 5000:5000 liteparse-server-slim

全栈部署

当你将 liteparse-server 作为共享基础设施运行时，完整的 Docker Compose 设置（https://github.com/run-llama/liteparse-server/tree/main/examples/docker-compose）提供了一个示例，包含生产服务所需的一切：

Redis 缓存 —— 解析结果按文件内容（和配置）的 SHA-256 哈希进行缓存。相同的文档不会重复解析（在缓存条目的过期时间内）。TTL：单个文件 1 小时，批量 12 小时，截图 24 小时。
Redis 限流 —— 每个 IP 每 60 秒 100 个请求，在服务器层面进行任何解析工作前强制执行。
分布式追踪 —— 通过 OpenTelemetry 和 Jaeger：每个请求都生成一个包含文件名、大小、MIME 类型、解析模式、页数等跨度属性的追踪，由 Jaeger 收集并展示。
指标 —— 通过 Prometheus 和 Grafana：请求吞吐量、解析持续时间、页数、文件大小、缓存命中率和错误计数，所有指标已预先配置，在服务器运行时由 Prometheus 直接拉取。

Grafana 仪表盘，展示由 Prometheus 从 liteparse-server 收集的指标

开始使用

源码托管在 GitHub 上：github.com/run-llama/liteparse-server（http://github.com/run-llama/liteparse-server），你可以从那里开始使用服务器。你也可以在文档中找到完整指南（https://developers.llamaindex.ai/liteparse/guides/server-usage/）。

你也可以拉取预构建的 Docker 镜像，该镜像自包含且立即可用：

docker pull ghcr.io/run-llama/liteparse-server:main
docker run -p 5000:5000 ghcr.io/run-llama/liteparse-server:main

服务器启动后，将运行在 http://localhost:5000，你可以用以下命令进行测试：

# 解析
curl -X POST "http://localhost:5000/parse" \
-F "[email protected]"

# 截图
curl -X POST "http://localhost:5000/screenshots" \
-F "[email protected]"

完整的 LiteParse 文档（包括 OCR 配置、多格式支持、边界框输出以及 TypeScript 和 Python 库 API）也可在 developers.llamaindex.ai/liteparse（http://developers.llamaindex.ai/liteparse）上获取。

@itsclelia: 你真的拥有你的文档解析基础设施吗？在 @llama_index，我们想让它更简单，所以构建了…

介绍 liteparse-server：面向 AI 工作流的自托管文档解析与 OCR

文档解析难题

它能解析什么

两个端点

POST /parse —— 解析单个文档

POST /screenshots —— 为视觉模型和引用提供页面图片

两种部署模式

最小服务器设置

全栈部署

开始使用

相似文章

@jerryjliu0：我们当前的核心使命是利用 AI 解决文档 OCR 问题。我们所有的产品线，从商业产品（LlamaParse）到……

@jerryjliu0: LiteParse 是为 AI 智能体设计的最佳开源、无模型文档解析器。支持解析 50 多种文档类型，并…

@jerryjliu0：LiteParse，我们的开源文档解析器，在将复杂 PDF 布局、文本和表格解析为清晰的空间网格方面表现出色……

@llama_index: 是否曾希望您的代理能像读取纯文本一样轻松读取PDF、图像和Office文档？或者将安全性…

@oliviscusAI: 您现在可以用一个 17 亿参数的模型解析任何文档，它就是 dots-ocr。一个处理文本、表格等的系统。

提交意见反馈