@tom_doerr: 将图像和PDF转换为Markdown,无需OCR https://github.com/NanoNets/docext

X AI KOLs Timeline 工具

摘要

docext是一个本地部署的工具包,无需OCR即可将图像和PDF转换为Markdown,利用视觉语言模型。它还引入了Nanonets-OCR-s,一个紧凑的3B参数模型,用于高效的图像到Markdown转换。

将图像和PDF转换为Markdown,无需OCR https://t.co/tI0EDdaWZR https://t.co/eFGzn4DLRa
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 17:36

docext - 一个本地部署的文档信息提取与基准测试工具包。

相似文章

@AIExplorerTim: 有人刚刚开发了一个工具,可以将 PDF 转换为 干净、结构化的 Markdown 速度达到 100 页/秒 不需要 GPU。 不需要 API 成本。 没有混乱的解析。 只有原始的、可用的数据。 它可以轻松处理的内容: • 表格 → 完美提…

X AI KOLs Timeline

OpenDataLoader 是一个开源工具,可将 PDF 转换为结构化的 Markdown 和 JSON,支持 100 页/秒的本地处理速度,无需 GPU 或 API 成本,专为 RAG 管道和 PDF 无障碍自动化设计。