@GithubProjects:Chunkr 是一个开源文档智能服务,可将 PDF、PPT、Word 文档和图像转换为结构化…

X AI KOLs Timeline 工具

摘要

Chunkr 是一个开源文档智能服务,将 PDF、PPT、Word 文档和图像转换为结构化块,用于 RAG 和 LLM 流水线。它具有 OCR 布局分析、结构化 HTML/Markdown 输出、视觉语言模型处理,以及通过 Docker Compose 自托管部署,可配置 LLM 提供商。

Chunkr 是一个开源文档智能服务,可将 PDF、PPT、Word 文档和图像转换为结构化块,可直接用于 RAG 和 LLM 流水线。 - OCR 和边界框布局分析 - 结构化 HTML 和 Markdown 输出 - 视觉语言模型处理 - 通过 Docker Compose 自托管部署,可配置 LLM 提供商
查看原文
查看缓存全文

缓存时间: 2026/06/27 05:51

Chunkr 是一款开源文档智能服务,可将 PDF、PPT、Word 文档及图片转换为结构化片段,直接用于 RAG 和 LLM 流水线。

  • 布局分析:支持 OCR 和边界框
  • 输出结构化 HTML 和 Markdown
  • 支持视觉语言模型处理
  • 通过 Docker Compose 自托管,可配置 LLM 提供商

相似文章

CHOP: 多文档RAG的分块式上下文保留框架

arXiv cs.CL

CHOP是一个通过使用上下文感知元数据和基于大语言模型的分块相关性评估来改进多文档检索RAG系统的框架,可以减少语义冲突和幻觉现象。该方法通过智能分块和上下文保留策略实现了90.77%的Top-1命中率。

Adaptive Chunking:为RAG优化分块方法选择

Papers with Code Trending

介绍Adaptive Chunking,一个利用五项文档内在指标为RAG选择最佳分块策略的框架,将答案正确率从62-64%提升至72%,并将问题解决率提高超过30%。