@tom_doerr: 将文档和媒体转换为用于LLM的结构化JSON https://github.com/adithya-s-k/omniparse…

X AI KOLs Timeline 2026/05/25 20:30 工具

document-parsing json llm genai open-source data-preparation ocr

摘要

OmniParse是一个本地平台，能够接收和解析非结构化数据（文档、图像、视频、音频、Web），并将其转换为针对LLM应用（如RAG和微调）优化的结构化JSON。

将文档和媒体转换为用于LLM的结构化JSON https://t.co/Mt55t9Uuvn https://t.co/G5R6rf2eHD

查看原文

查看缓存全文

缓存时间: 2026/05/26 19:13

API端点

相似文章

X AI KOLs Timeline

OmniParse 是一个仓库，几乎能摄取任何文件并将其转换为干净、结构化的 Markdown，完全本地运行，无需外部 API，非常适合 RAG 管道和本地代理。

X AI KOLs Timeline

docext是一个本地部署的工具包，无需OCR即可将图像和PDF转换为Markdown，利用视觉语言模型。它还引入了Nanonets-OCR-s，一个紧凑的3B参数模型，用于高效的图像到Markdown转换。

X AI KOLs Following

LlamaIndex 发布了 liteparse-server，这是一个可自托管、无模型的 HTTP API，能够以高空间保真度和隐私保护能力解析多种多样的文档类型。

X AI KOLs Following

LlamaIndex 推出了 liteparse-server，这是一个开源、可自托管的 HTTP 后端，用于解析 PDF、图像和 Office 文档，支持空间布局提取、OCR 和截图生成，专为 AI 和数据工作流设计。

X AI KOLs Following

LiteParse 是一款基于启发式规则的开源 PDF 解析器，无需依赖 ML 模型即可快速将复杂布局、文本和表格转换为整洁的空间网格。