@GithubProjects：Chunkr 是一个开源文档智能服务，可将 PDF、PPT、Word 文档和图像转换为结构化…

X AI KOLs Timeline 2026/06/27 00:30 工具

open-source document-intelligence rag llm ocr docker vision-language-model

摘要

Chunkr 是一个开源文档智能服务，将 PDF、PPT、Word 文档和图像转换为结构化块，用于 RAG 和 LLM 流水线。它具有 OCR 布局分析、结构化 HTML/Markdown 输出、视觉语言模型处理，以及通过 Docker Compose 自托管部署，可配置 LLM 提供商。

Chunkr 是一个开源文档智能服务，可将 PDF、PPT、Word 文档和图像转换为结构化块，可直接用于 RAG 和 LLM 流水线。 - OCR 和边界框布局分析 - 结构化 HTML 和 Markdown 输出 - 视觉语言模型处理 - 通过 Docker Compose 自托管部署，可配置 LLM 提供商

查看原文

查看缓存全文

缓存时间: 2026/06/27 05:51

Chunkr 是一款开源文档智能服务，可将 PDF、PPT、Word 文档及图片转换为结构化片段，直接用于 RAG 和 LLM 流水线。

布局分析：支持 OCR 和边界框
输出结构化 HTML 和 Markdown
支持视觉语言模型处理
通过 Docker Compose 自托管，可配置 LLM 提供商

相似文章

@DataChaz: 混乱文档输入，复杂知识图谱输出，仅需一条命令行。如果你的流水线只是将数据编译成通用……

X AI KOLs Timeline

Hyper-Extract 是一个开源框架，可将混乱文档转换为类型化知识结构，支持多种图谱架构（如 GraphRAG、LightRAG 和 KG-Gen），拥有 10 多种提取引擎和 80 多个面向不同领域的 YAML 模板。

@BlockInsight214: 论文、合同、扫描件丢给 AI 之前，最难的一步往往是「先把 PDF 洗干净」。这几个开源项目专干这件事：转成 Markdown/JSON，直接喂给 RAG 或 agent。 ① MarkItDown · 微软出品，Office/PDF/图…

X AI KOLs Timeline

介绍了五个开源工具（MarkItDown、MinerU、Docling、marker、surya），用于将PDF、Office文档等转换为Markdown或JSON，以便直接供RAG或AI代理使用。

@GithubProjects：Chunkr 是一个开源文档智能服务，可将 PDF、PPT、Word 文档和图像转换为结构化…

相似文章

@DataChaz: 混乱文档输入，复杂知识图谱输出，仅需一条命令行。如果你的流水线只是将数据编译成通用……

@BlockInsight214: 论文、合同、扫描件丢给 AI 之前，最难的一步往往是「先把 PDF 洗干净」。这几个开源项目专干这件事：转成 Markdown/JSON，直接喂给 RAG 或 agent。 ① MarkItDown · 微软出品，Office/PDF/图…

CHOP: 多文档RAG的分块式上下文保留框架

Adaptive Chunking：为RAG优化分块方法选择

@hasantoxr: 现在只需一条命令就能将杂乱文档转化为结构化知识。它叫做Hyper-Extract。大多数RAG工具只是…

提交意见反馈