@VincentLogic: 做 RAG 最头疼的是什么? 不是AI大模型,是文档解析啊! PDF、Word、PPT 转 Markdown 转得乱七八糟,表格公式全乱套... 最近试了下 MinerU 3.1,真香了! 一键转换,格式保留完美 表格、公式、图片自动识别…
摘要
推荐MinerU 3.1文档解析工具,能完美将PDF、Word、PPT等转换为Markdown,支持表格、公式、图片自动识别,并提供三种模式(Pipeline/VLM),开源且可商用。
查看缓存全文
缓存时间: 2026/05/16 09:16
做 RAG 最头疼的是什么? 不是AI大模型,是文档解析啊! PDF、Word、PPT 转 Markdown 转得乱七八糟,表格公式全乱套…
最近试了下 MinerU 3.1,真香了! 一键转换,格式保留完美 表格、公式、图片自动识别 三种模式可选(要速度选 Pipeline,要精度选 VLM) 连 Excel 和 PPT 都能直接解析
最关键的是:Apache 2.0 协议,商用完全没问题! 视频里有完整安装和部署教程,做知识库的兄弟一定要看!
项目地址放评论区了
相似文章
@AIExplorerTim: 有人刚刚开发了一个工具,可以将 PDF 转换为 干净、结构化的 Markdown 速度达到 100 页/秒 不需要 GPU。 不需要 API 成本。 没有混乱的解析。 只有原始的、可用的数据。 它可以轻松处理的内容: • 表格 → 完美提…
OpenDataLoader 是一个开源工具,可将 PDF 转换为结构化的 Markdown 和 JSON,支持 100 页/秒的本地处理速度,无需 GPU 或 API 成本,专为 RAG 管道和 PDF 无障碍自动化设计。
@Chenzeze777: 微软开源了一个 14 万星的文档神器,我整理了它最实用的 5 个场景。 MarkItDown,Python 工具,把 PDF/Word/PPT/Excel/HTML/图片,一键转成干净的 Markdown 文本。 你能用它做什么: · P…
微软开源了 MarkItDown,一个轻量级 Python 工具,可将 PDF、Word、PPT、Excel、HTML 和图片等文件一键转换为干净的结构化 Markdown 文本,方便用于 AI 摘要、数据分析、知识库构建等场景。
@rwayne: 太屌了学术论文搭本地知识库,瓶颈一直在 PDF 怎么干净转 md。OpenDataLoader-PDF 把这道题做到了 0.907 准确率 开源 PDF 解析榜第一全套 Apache 2.0。 200 篇真实论文测试集的关键数字 总分 0…
OpenDataLoader-PDF 是一款开源 PDF 解析工具,在真实学术论文测试中达到 0.907 的高准确率,支持将复杂的 PDF 文档(含表格、公式、扫描件)高效转换为 Markdown 和 JSON,非常适合本地知识库和 RAG 应用。
@IndieDevHailey: 文档地狱终结者 MarkItDown,一键把所有文件秒变 LLM 完美 Markdown! Microsoft 直接开源 MarkItDown,138k+ Star 霸榜 Trending, 从此告别 PDF 乱码、Word 表格炸裂、P…
Microsoft 开源了 MarkItDown 工具,可将 PDF、Word、Excel、PPT 等文件一键转换为结构完整的 Markdown 格式,便于直接喂给 LLM,目前 GitHub Star 超过 138k。
@AYi_AInotes: https://x.com/AYi_AInotes/status/2058536443174158504
作者分享了自己三年使用PDF喂AI的踩坑经历,指出Markdown比PDF更适合作为AI输入格式,因为PDF本质上是坐标+字符的混合体,AI需要先解析结构,容易出错且消耗更多token。文章提供了具体案例和推荐工具(markitdown、pandoc、LlamaParse),并预告了一个名为“喂AI的艺术”的新系列。