@jerryjliu0: LiteParse 是为 AI 智能体设计的最佳开源、无模型文档解析器。支持解析 50 多种文档类型,并…

X AI KOLs Following 工具

摘要

LlamaIndex 发布了 liteparse-server,这是一个可自托管、无模型的 HTTP API,能够以高空间保真度和隐私保护能力解析多种多样的文档类型。

LiteParse 是为 AI 智能体设计的最佳开源、无模型文档解析器。它支持解析超过 50 种文档类型,能够处理包含复杂文本布局和表格的密集页面,并在几秒钟内提取出干净的文本(同时包含轻量级 OCR 集成!)今天,我们发布了 `liteparse-server`,它通过 HTTP API 提供 LiteParse 服务。这让你可以从任何语言或服务中使用它,而无需将任何数据发送到云端。无需调用第三方 VLM API,即可解析你的敏感、复杂的文档。查看我们的博客文章和发布内容!博客:https://llamaindex.ai/blog/liteparse-server-self-hostable-document-parsing?utm_medium=socials&utm_source=twitter&utm_campaign=2026--… liteparse-server:https://github.com/run-llama/liteparse-server… liteparse:https://github.com/run-llama/liteparse…
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/13 00:32

LiteParse 是 AI Agent 最佳开源、无模型依赖的文档解析器。它支持超过 50 种文档类型,能够快速解析包含复杂文本布局和表格的密集页面,并在几秒钟内提取出干净的文本(同时包含轻量级 OCR 集成功能!)今天,我们发布了 liteparse-server,它通过 HTTP API 提供 LiteParse 服务。这意味着你可以从任何语言或服务中使用它,而无需将任何数据发送到云端。无需调用第三方 VLM API,即可解析你的敏感且复杂的文档。查看我们的博客文章和发布详情!博客:https://llamaindex.ai/blog/liteparse-server-self-hostable-document-parsing?utm_medium=socials&utm_source=twitter&utm_campaign=2026–… liteparse-server: https://github.com/run-llama/liteparse-server… liteparse: https://github.com/run-llama/liteparse…


介绍 liteparse-server:为 AI 工作流提供自托管文档解析和 OCR 功能

来源:https://www.llamaindex.ai/blog/liteparse-server-self-hostable-document-parsing?utm_medium=socials&utm_source=twitter&utm_campaign=2026–

文档解析难题

大多数 AI 和数据工作流在处理文档时,最终都会遇到同样的瓶颈。你的数据存在于 PDF、Word 文档、电子表格和扫描图像中,从中提取干净的文本比看起来要困难得多。

简单的方法(如 pypdf、基础提取库)会丢失空间布局信息,而云端解析 API 虽然解决了准确性问题,却引入了延迟、按页计费、隐私担忧以及网络依赖。同时,仅仅为了提取文本而运行完整的 LLM(大语言模型)对于旨在扩展规模的应用来说,既昂贵又缓慢。

相比之下,LiteParse 提供快速、本地、准确的文档解析,且使用开源工具。它提取带有精确空间布局信息的文本,为每个文本项生成边界框(bounding boxes),并报告它们在页面上的位置。虽然这一点可能不会立刻显现,但空间保真度至关重要:它是使下游任务(如表格提取、部分检测和引用定位)实际可行的重要因素。

liteparse-server 将 LiteParse 封装在 HTTP API 中,使其可以从任何语言或服务中使用,作为一个专用的、自托管的解析后端。

支持的解析格式

LiteParse 处理现实工作流中遇到的各种文档格式:

  • PDF — 带有空间布局和边界框的本地文本提取;针对扫描页面和嵌入图像的选择性 OCR
  • Office 文档 — 通过 LibreOffice 支持 Word (.docx, .doc, .odt, .rtf)、PowerPoint (.pptx, .ppt)、电子表格 (.xlsx, .xls, .csv)
  • 图像 — 通过 ImageMagick 支持 .jpg, .png, .tiff, .webp, .svg 等更多格式

OCR 默认使用捆绑的 Tesseract.js,并支持插件扩展至 EasyOCR、PaddleOCR 或任何自定义 OCR 服务器。当需要在大型文档集合中通过 GPU 加速实现更高准确性时,这些插件是非常有用的补充。

混合格式的批处理作业开箱即用:指向包含 PDF、Word 文件和图像的目录,服务器将一次性处理转换和解析。

两个端点

POST /parse — 解析单个文档

上传任何支持的文件,返回包含文本和边界框的结构化页面数据,或者如果你只需要纯文本,则返回纯文本。

# 带有布局的结构化 JSON
curl -X POST http://localhost:5000/parse -F "[email protected]"

# 纯文本
curl -X POST "http://localhost:5000/parse?text=true" -F "[email protected]"

JSON 响应包含一个 pages 数组。每个页面携带带有位置信息的提取文本项,准备好馈送给分块流水线、RAG 检索器或布局分析模型。

POST /screenshots — 为视觉模型和引用生成页面图像

将文档页面渲染为 PNG 图像,并以换行符分隔的 JSON 格式返回。每个响应行包含页码、尺寸和 Base64 编码的图像数据。

此端点专为具备视觉能力的 LLM 工作流和需要视觉引用的应用程序设计:截图文档,将图像连同问题一起发送给模型,并获得基于页面实际视觉布局的答案。

curl -X POST "http://localhost:5000/screenshots?pages=1,2,3" \
  -F "[email protected]"

两个端点都接受一个 config 字段,用于通过 LiteParse 配置选项(https://developers.llamaindex.ai/liteparse/guides/library-usage/#configuration)进行细粒度控制。

两种部署模式

LibreOffice 和 ImageMagick 已包含在 liteparse-server Docker 镜像 中。但是,如果你想直接用 Node 或 Bun(不使用 Docker)运行服务器,你需要先在自己的系统上安装 LibreOffice 和 ImageMagick。

最小化服务器设置

精简版服务器没有任何基础设施依赖,你可以使用 Bun/Node 在本地运行它,或者作为 Docker 容器运行:

# 使用 bun
bun run start-slim:bun
# 使用 node
npm run start-slim:node
docker build -f slim.Dockerfile -t liteparse-server-slim .
docker run -p 5000:5000 liteparse-server-slim

完整栈

当你将 liteparse-server 作为共享基础设施运行时,完整的 Docker Compose 设置(https://github.com/run-llama/liteparse-server/tree/main/examples/docker-compose)提供了一个包含生产服务所需一切功能的示例:

  • Redis 缓存 — 解析结果根据文件内容(及)和配置的 SHA-256 哈希进行缓存。相同的文档在缓存条目过期范围内永远不会被解析两次。TTL(生存时间):单文件为 1 小时,批量为 12 小时,截图为 24 小时。
  • Redis 速率限制 — 每个 IP 地址每 60 秒 100 个请求,在服务器级别执行,在任何解析工作开始之前生效。
  • 分布式追踪 — 通过 OpenTelemetry 和 Jaeger 实现。每个请求都会生成一个包含文件名、大小、MIME 类型、解析模式、页数等跨度属性(span attributes)的追踪记录,由 Jaeger 收集和显示。
  • 指标监控 — 通过 Prometheus 和 Grafana 实现。请求吞吐量、解析持续时间、页数、文件大小、缓存命中率和错误计数,所有指标均已预连接,并在服务器运行时由 Prometheus 直接抓取。

来自 liteparse-server 的 Prometheus 收集指标显示的 Grafana 仪表盘

开始使用

源代码位于 GitHub 的 github.com/run-llama/liteparse-server (http://github.com/run-llama/liteparse-server),你可以从那里开始使用服务器。你也可以在文档中找到完整指南(https://developers.llamaindex.ai/liteparse/guides/server-usage/)。

你还可以拉取预构建的 Docker 镜像,它是自包含的,可以立即运行:

docker pull ghcr.io/run-llama/liteparse-server:main
docker run -p 5000:5000 ghcr.io/run-llama/liteparse-server:main

服务器启动后,它将在 http://localhost:5000 上运行,你可以使用以下命令进行测试:

# 解析
curl -X POST "http://localhost:5000/parse" \
-F "[email protected]"

# 截图
curl -X POST "http://localhost:5000/screenshots" \
-F "[email protected]"

完整的 LiteParse 文档(包括 OCR 配置、多格式支持、边界框输出以及 TypeScript 和 Python 库 API)也可在 developers.llamaindex.ai/liteparse (http://developers.llamaindex.ai/liteparse) 上找到。

相似文章