@mdancho84: 将任何文档转换为LLM就绪的数据!微软发布了MarkItDown,一个轻量级Python库,可将任何文档…
摘要
微软发布了MarkItDown,一个开源的Python库,可将任何文档转换为Markdown,以便与LLM配合使用。
将任何文档转换为LLM就绪的数据!
微软发布了MarkItDown,一个轻量级Python库,可将任何文档转换为Markdown,以便与LLM配合使用。
100%开源 https://t.co/Ds6Yy03Ckm
查看缓存全文
缓存时间: 2026/06/14 07:39
将任何文档转换为LLM可用的数据!
微软发布了MarkItDown,一个轻量级Python库,可将任何文档转换为Markdown格式,以便与LLM配合使用。
100% 开源 https://t.co/Ds6Yy03Ckm
相似文章
@IndieDevHailey: 文档地狱终结者 MarkItDown,一键把所有文件秒变 LLM 完美 Markdown! Microsoft 直接开源 MarkItDown,138k+ Star 霸榜 Trending, 从此告别 PDF 乱码、Word 表格炸裂、P…
Microsoft 开源了 MarkItDown 工具,可将 PDF、Word、Excel、PPT 等文件一键转换为结构完整的 Markdown 格式,便于直接喂给 LLM,目前 GitHub Star 超过 138k。
@Chenzeze777: 微软开源了一个 14 万星的文档神器,我整理了它最实用的 5 个场景。 MarkItDown,Python 工具,把 PDF/Word/PPT/Excel/HTML/图片,一键转成干净的 Markdown 文本。 你能用它做什么: · P…
微软开源了 MarkItDown,一个轻量级 Python 工具,可将 PDF、Word、PPT、Excel、HTML 和图片等文件一键转换为干净的结构化 Markdown 文本,方便用于 AI 摘要、数据分析、知识库构建等场景。
面向 LLM 的 Markdown 浏览器
作者介绍了 TextWeb,这是一个开源工具,它将网页渲染为 Markdown 格式供 LLM 处理,而非使用昂贵的大视觉模型,该工具支持命令行界面 (CLI) 和 MCP 服务器。
@tom_doerr: 将图像和PDF转换为Markdown,无需OCR https://github.com/NanoNets/docext
docext是一个本地部署的工具包,无需OCR即可将图像和PDF转换为Markdown,利用视觉语言模型。它还引入了Nanonets-OCR-s,一个紧凑的3B参数模型,用于高效的图像到Markdown转换。
@tom_doerr: 将文档和媒体转换为用于LLM的结构化JSON https://github.com/adithya-s-k/omniparse…
OmniParse是一个本地平台,能够接收和解析非结构化数据(文档、图像、视频、音频、Web),并将其转换为针对LLM应用(如RAG和微调)优化的结构化JSON。