@jerryjliu0: LiteParse 是为 AI 智能体设计的最佳开源、无模型文档解析器。支持解析 50 多种文档类型，并…

X AI KOLs Following 2026/05/12 22:29 工具

document-parsing open-source self-hosted rag ocr ai-agents llamaindex

摘要

LlamaIndex 发布了 liteparse-server，这是一个可自托管、无模型的 HTTP API，能够以高空间保真度和隐私保护能力解析多种多样的文档类型。

LiteParse 是为 AI 智能体设计的最佳开源、无模型文档解析器。它支持解析超过 50 种文档类型，能够处理包含复杂文本布局和表格的密集页面，并在几秒钟内提取出干净的文本（同时包含轻量级 OCR 集成！）今天，我们发布了 `liteparse-server`，它通过 HTTP API 提供 LiteParse 服务。这让你可以从任何语言或服务中使用它，而无需将任何数据发送到云端。无需调用第三方 VLM API，即可解析你的敏感、复杂的文档。查看我们的博客文章和发布内容！博客：https://llamaindex.ai/blog/liteparse-server-self-hostable-document-parsing?utm_medium=socials&utm_source=twitter&utm_campaign=2026--… liteparse-server：https://github.com/run-llama/liteparse-server… liteparse：https://github.com/run-llama/liteparse…

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/13 00:32

LiteParse 是 AI Agent 最佳开源、无模型依赖的文档解析器。它支持超过 50 种文档类型，能够快速解析包含复杂文本布局和表格的密集页面，并在几秒钟内提取出干净的文本（同时包含轻量级 OCR 集成功能！）今天，我们发布了 liteparse-server，它通过 HTTP API 提供 LiteParse 服务。这意味着你可以从任何语言或服务中使用它，而无需将任何数据发送到云端。无需调用第三方 VLM API，即可解析你的敏感且复杂的文档。查看我们的博客文章和发布详情！博客：https://llamaindex.ai/blog/liteparse-server-self-hostable-document-parsing?utm_medium=socials&utm_source=twitter&utm_campaign=2026–… liteparse-server: https://github.com/run-llama/liteparse-server… liteparse: https://github.com/run-llama/liteparse…

介绍 liteparse-server：为 AI 工作流提供自托管文档解析和 OCR 功能

来源：https://www.llamaindex.ai/blog/liteparse-server-self-hostable-document-parsing?utm_medium=socials&utm_source=twitter&utm_campaign=2026–

文档解析难题

大多数 AI 和数据工作流在处理文档时，最终都会遇到同样的瓶颈。你的数据存在于 PDF、Word 文档、电子表格和扫描图像中，从中提取干净的文本比看起来要困难得多。

简单的方法（如 pypdf、基础提取库）会丢失空间布局信息，而云端解析 API 虽然解决了准确性问题，却引入了延迟、按页计费、隐私担忧以及网络依赖。同时，仅仅为了提取文本而运行完整的 LLM（大语言模型）对于旨在扩展规模的应用来说，既昂贵又缓慢。

相比之下，LiteParse 提供快速、本地、准确的文档解析，且使用开源工具。它提取带有精确空间布局信息的文本，为每个文本项生成边界框（bounding boxes），并报告它们在页面上的位置。虽然这一点可能不会立刻显现，但空间保真度至关重要：它是使下游任务（如表格提取、部分检测和引用定位）实际可行的重要因素。

liteparse-server 将 LiteParse 封装在 HTTP API 中，使其可以从任何语言或服务中使用，作为一个专用的、自托管的解析后端。

支持的解析格式

LiteParse 处理现实工作流中遇到的各种文档格式：

PDF — 带有空间布局和边界框的本地文本提取；针对扫描页面和嵌入图像的选择性 OCR
Office 文档 — 通过 LibreOffice 支持 Word (.docx, .doc, .odt, .rtf)、PowerPoint (.pptx, .ppt)、电子表格 (.xlsx, .xls, .csv)
图像 — 通过 ImageMagick 支持 .jpg, .png, .tiff, .webp, .svg 等更多格式

OCR 默认使用捆绑的 Tesseract.js，并支持插件扩展至 EasyOCR、PaddleOCR 或任何自定义 OCR 服务器。当需要在大型文档集合中通过 GPU 加速实现更高准确性时，这些插件是非常有用的补充。

混合格式的批处理作业开箱即用：指向包含 PDF、Word 文件和图像的目录，服务器将一次性处理转换和解析。

两个端点

POST /parse — 解析单个文档

上传任何支持的文件，返回包含文本和边界框的结构化页面数据，或者如果你只需要纯文本，则返回纯文本。

# 带有布局的结构化 JSON
curl -X POST http://localhost:5000/parse -F "[email protected]"

# 纯文本
curl -X POST "http://localhost:5000/parse?text=true" -F "[email protected]"

JSON 响应包含一个 pages 数组。每个页面携带带有位置信息的提取文本项，准备好馈送给分块流水线、RAG 检索器或布局分析模型。

POST /screenshots — 为视觉模型和引用生成页面图像

将文档页面渲染为 PNG 图像，并以换行符分隔的 JSON 格式返回。每个响应行包含页码、尺寸和 Base64 编码的图像数据。

此端点专为具备视觉能力的 LLM 工作流和需要视觉引用的应用程序设计：截图文档，将图像连同问题一起发送给模型，并获得基于页面实际视觉布局的答案。

curl -X POST "http://localhost:5000/screenshots?pages=1,2,3" \
  -F "[email protected]"

两个端点都接受一个 config 字段，用于通过 LiteParse 配置选项（https://developers.llamaindex.ai/liteparse/guides/library-usage/#configuration）进行细粒度控制。

两种部署模式

LibreOffice 和 ImageMagick 已包含在 liteparse-server Docker 镜像 中。但是，如果你想直接用 Node 或 Bun（不使用 Docker）运行服务器，你需要先在自己的系统上安装 LibreOffice 和 ImageMagick。

最小化服务器设置

精简版服务器没有任何基础设施依赖，你可以使用 Bun/Node 在本地运行它，或者作为 Docker 容器运行：

# 使用 bun
bun run start-slim:bun
# 使用 node
npm run start-slim:node

docker build -f slim.Dockerfile -t liteparse-server-slim .
docker run -p 5000:5000 liteparse-server-slim

完整栈

当你将 liteparse-server 作为共享基础设施运行时，完整的 Docker Compose 设置（https://github.com/run-llama/liteparse-server/tree/main/examples/docker-compose）提供了一个包含生产服务所需一切功能的示例：

Redis 缓存 — 解析结果根据文件内容（及）和配置的 SHA-256 哈希进行缓存。相同的文档在缓存条目过期范围内永远不会被解析两次。TTL（生存时间）：单文件为 1 小时，批量为 12 小时，截图为 24 小时。
Redis 速率限制 — 每个 IP 地址每 60 秒 100 个请求，在服务器级别执行，在任何解析工作开始之前生效。
分布式追踪 — 通过 OpenTelemetry 和 Jaeger 实现。每个请求都会生成一个包含文件名、大小、MIME 类型、解析模式、页数等跨度属性（span attributes）的追踪记录，由 Jaeger 收集和显示。
指标监控 — 通过 Prometheus 和 Grafana 实现。请求吞吐量、解析持续时间、页数、文件大小、缓存命中率和错误计数，所有指标均已预连接，并在服务器运行时由 Prometheus 直接抓取。

来自 liteparse-server 的 Prometheus 收集指标显示的 Grafana 仪表盘

开始使用

源代码位于 GitHub 的 github.com/run-llama/liteparse-server (http://github.com/run-llama/liteparse-server)，你可以从那里开始使用服务器。你也可以在文档中找到完整指南（https://developers.llamaindex.ai/liteparse/guides/server-usage/）。

你还可以拉取预构建的 Docker 镜像，它是自包含的，可以立即运行：

docker pull ghcr.io/run-llama/liteparse-server:main
docker run -p 5000:5000 ghcr.io/run-llama/liteparse-server:main

服务器启动后，它将在 http://localhost:5000 上运行，你可以使用以下命令进行测试：

# 解析
curl -X POST "http://localhost:5000/parse" \
-F "[email protected]"

# 截图
curl -X POST "http://localhost:5000/screenshots" \
-F "[email protected]"

完整的 LiteParse 文档（包括 OCR 配置、多格式支持、边界框输出以及 TypeScript 和 Python 库 API）也可在 developers.llamaindex.ai/liteparse (http://developers.llamaindex.ai/liteparse) 上找到。

@jerryjliu0: LiteParse 是为 AI 智能体设计的最佳开源、无模型文档解析器。支持解析 50 多种文档类型，并…

介绍 liteparse-server：为 AI 工作流提供自托管文档解析和 OCR 功能

文档解析难题

支持的解析格式

两个端点

POST /parse — 解析单个文档

POST /screenshots — 为视觉模型和引用生成页面图像

两种部署模式

最小化服务器设置

完整栈

开始使用

相似文章

@itsclelia: 你真的拥有你的文档解析基础设施吗？在 @llama_index，我们想让它更简单，所以构建了…

@jerryjliu0：我们当前的核心使命是利用 AI 解决文档 OCR 问题。我们所有的产品线，从商业产品（LlamaParse）到……

@jerryjliu0：LiteParse，我们的开源文档解析器，在将复杂 PDF 布局、文本和表格解析为清晰的空间网格方面表现出色……

@llama_index: 是否曾希望您的代理能像读取纯文本一样轻松读取PDF、图像和Office文档？或者将安全性…

@jerryjliu0: Agent 与文件沙盒是 2026 年的热门方向。这是 @itsclelia 提供的一个巧妙参考实现，向你展示了……

提交意见反馈