@tom_doerr: 将图像和PDF转换为Markdown,无需OCR https://github.com/NanoNets/docext
摘要
docext是一个本地部署的工具包,无需OCR即可将图像和PDF转换为Markdown,利用视觉语言模型。它还引入了Nanonets-OCR-s,一个紧凑的3B参数模型,用于高效的图像到Markdown转换。
将图像和PDF转换为Markdown,无需OCR
https://t.co/tI0EDdaWZR https://t.co/eFGzn4DLRa
查看缓存全文
缓存时间: 2026/05/08 17:36
docext - 一个本地部署的文档信息提取与基准测试工具包。
相似文章
NuExtract3发布:面向Markdown、OCR和结构化提取的开放权重4B视觉语言模型(可自行托管)[P]
Numind发布了NuExtract3,这是一个基于Qwen3.5-4B的4B开放权重视觉语言模型,专为将文档图像转换为Markdown、OCR和结构化数据提取而设计。该模型采用Apache-2.0许可证,可自行托管,并提供量化版本以适应低显存环境。
@hasantoxr: 我找到了为LLM时代打造的OCR工具。它叫olmOCR。olmOCR可以处理PDF、扫描件、PNG和JPEG,并将其转…
olmOCR 是来自Ai2的开源OCR工具,能够将PDF、扫描件和图像转换为干净的Markdown格式,旨在通过保留阅读顺序和处理复杂布局,为LLM流水线准备文档。
@tom_doerr: 将文档和媒体转换为用于LLM的结构化JSON https://github.com/adithya-s-k/omniparse…
OmniParse是一个本地平台,能够接收和解析非结构化数据(文档、图像、视频、音频、Web),并将其转换为针对LLM应用(如RAG和微调)优化的结构化JSON。
工作流中的PDF正在消耗约3倍token,使用微软的Markitdown免费节省
微软的Markitdown工具将PDF转换为markdown,在向Claude等AI模型提供文档时可节省token和成本,但在处理扫描PDF、图表和复杂表格时需要谨慎。
@BlockInsight214: 论文、合同、扫描件丢给 AI 之前,最难的一步往往是「先把 PDF 洗干净」。这几个开源项目专干这件事:转成 Markdown/JSON,直接喂给 RAG 或 agent。 ① MarkItDown · 微软出品,Office/PDF/图…
介绍了五个开源工具(MarkItDown、MinerU、Docling、marker、surya),用于将PDF、Office文档等转换为Markdown或JSON,以便直接供RAG或AI代理使用。