@tom_doerr: 将图像和PDF转换为Markdown，无需OCR https://github.com/NanoNets/docext

X AI KOLs Timeline 2026/05/08 03:57 工具

document-extraction pdf-to-markdown vision-language-model ocr-free open-source nanonets

摘要

docext是一个本地部署的工具包，无需OCR即可将图像和PDF转换为Markdown，利用视觉语言模型。它还引入了Nanonets-OCR-s，一个紧凑的3B参数模型，用于高效的图像到Markdown转换。

将图像和PDF转换为Markdown，无需OCR https://t.co/tI0EDdaWZR https://t.co/eFGzn4DLRa

查看原文

查看缓存全文

缓存时间: 2026/05/08 17:36

docext - 一个本地部署的文档信息提取与基准测试工具包。

相似文章

Reddit r/MachineLearning

Numind发布了NuExtract3，这是一个基于Qwen3.5-4B的4B开放权重视觉语言模型，专为将文档图像转换为Markdown、OCR和结构化数据提取而设计。该模型采用Apache-2.0许可证，可自行托管，并提供量化版本以适应低显存环境。

X AI KOLs Timeline

olmOCR 是来自Ai2的开源OCR工具，能够将PDF、扫描件和图像转换为干净的Markdown格式，旨在通过保留阅读顺序和处理复杂布局，为LLM流水线准备文档。

X AI KOLs Timeline

OmniParse是一个本地平台，能够接收和解析非结构化数据（文档、图像、视频、音频、Web），并将其转换为针对LLM应用（如RAG和微调）优化的结构化JSON。

Reddit r/AI_Agents

微软的Markitdown工具将PDF转换为markdown，在向Claude等AI模型提供文档时可节省token和成本，但在处理扫描PDF、图表和复杂表格时需要谨慎。

X AI KOLs Timeline

介绍了五个开源工具（MarkItDown、MinerU、Docling、marker、surya），用于将PDF、Office文档等转换为Markdown或JSON，以便直接供RAG或AI代理使用。