@GithubProjects:Chunkr 是一个开源文档智能服务,可将 PDF、PPT、Word 文档和图像转换为结构化…
摘要
Chunkr 是一个开源文档智能服务,将 PDF、PPT、Word 文档和图像转换为结构化块,用于 RAG 和 LLM 流水线。它具有 OCR 布局分析、结构化 HTML/Markdown 输出、视觉语言模型处理,以及通过 Docker Compose 自托管部署,可配置 LLM 提供商。
查看缓存全文
缓存时间: 2026/06/27 05:51
Chunkr 是一款开源文档智能服务,可将 PDF、PPT、Word 文档及图片转换为结构化片段,直接用于 RAG 和 LLM 流水线。
- 布局分析:支持 OCR 和边界框
- 输出结构化 HTML 和 Markdown
- 支持视觉语言模型处理
- 通过 Docker Compose 自托管,可配置 LLM 提供商
相似文章
@DataChaz: 混乱文档输入,复杂知识图谱输出,仅需一条命令行。如果你的流水线只是将数据编译成通用……
Hyper-Extract 是一个开源框架,可将混乱文档转换为类型化知识结构,支持多种图谱架构(如 GraphRAG、LightRAG 和 KG-Gen),拥有 10 多种提取引擎和 80 多个面向不同领域的 YAML 模板。
@BlockInsight214: 论文、合同、扫描件丢给 AI 之前,最难的一步往往是「先把 PDF 洗干净」。这几个开源项目专干这件事:转成 Markdown/JSON,直接喂给 RAG 或 agent。 ① MarkItDown · 微软出品,Office/PDF/图…
介绍了五个开源工具(MarkItDown、MinerU、Docling、marker、surya),用于将PDF、Office文档等转换为Markdown或JSON,以便直接供RAG或AI代理使用。
CHOP: 多文档RAG的分块式上下文保留框架
CHOP是一个通过使用上下文感知元数据和基于大语言模型的分块相关性评估来改进多文档检索RAG系统的框架,可以减少语义冲突和幻觉现象。该方法通过智能分块和上下文保留策略实现了90.77%的Top-1命中率。
Adaptive Chunking:为RAG优化分块方法选择
介绍Adaptive Chunking,一个利用五项文档内在指标为RAG选择最佳分块策略的框架,将答案正确率从62-64%提升至72%,并将问题解决率提高超过30%。
@hasantoxr: 现在只需一条命令就能将杂乱文档转化为结构化知识。它叫做Hyper-Extract。大多数RAG工具只是…
Hyper-Extract 是一款命令行工具,可将凌乱的非结构化文档转化为结构化知识,如知识图谱、超图、时间/空间图及Obsidian vault,支持本地LLM推理与MCP集成。