工作流中的PDF正在消耗约3倍token，使用微软的Markitdown免费节省

Reddit r/AI_Agents 2026/05/31 19:38 工具

pdf markdown token-efficiency microsoft markitdown ai-workflow cost-saving

摘要

微软的Markitdown工具将PDF转换为markdown，在向Claude等AI模型提供文档时可节省token和成本，但在处理扫描PDF、图表和复杂表格时需要谨慎。

原始PDF通常同时经过两道“门”：它会被栅格化为图像（你支付图像token）*并且*被提取文本（你支付文本token）。在Claude上，一张图像大约为\~(w×h)/750 ≈ 1,500 token/页；实际文本仅约\~700–900。因此，一份10页的文档作为PDF约为\~23k token，而作为markdown仅约\~8k token——而且markdown通常读取*更*准确。最简单的解决方法是使用微软的MarkItDown——`pip install 'markitdown[all]'`然后`markitdown report.pdf -o report.md`。一行命令，你的文档就走便宜的门。注意：不要盲目转换。扫描的PDF（MarkItDown默认不进行OCR——需要添加`markitdown-ocr`插件，否则你会得到幻觉数字），图表（趋势存在于像素中）以及复杂的表格（其基本提取可能会打乱它们——请使用Docling/Marker）是文本门可能丢失答案的地方。如需免费详细文章，请私信或评论。

查看原文

相似文章

@Ryrenz: PDF 直接丢给大模型，表格乱码、公式崩溃、扫描件还认不出字。这 5 个工具帮你把文档转成 AI 能读的干净格式。 1、Stirling-PDF — 本地 PDF 全能工具箱，85k star 合并、拆分、压缩、加水印、转格式，几十种操…

X AI KOLs Timeline

本文介绍了5个将文档转换为AI可读格式的开源工具：Stirling-PDF、MinerU、docling、marker和OCRmyPDF，分别针对PDF编辑、复杂文档转Markdown、文档结构化输出、高精度PDF转Markdown以及扫描件OCR处理。

@HowToPrompt__: 有人开源了一个工具，每秒可将PDF转换为Markdown，速度达122页。→ PDF、DOCX、PPTX、XLSX、EPUB、图像…

X AI KOLs Timeline

一个开源工具可将PDF、DOCX、PPTX、XLSX、EPUB及图像转换为Markdown，速度达122页/秒，支持表格、公式和表单，可在GPU、CPU或Mac上运行。

@AYi_AInotes: https://x.com/AYi_AInotes/status/2058536443174158504

X AI KOLs Timeline

作者分享了自己三年使用PDF喂AI的踩坑经历，指出Markdown比PDF更适合作为AI输入格式，因为PDF本质上是坐标+字符的混合体，AI需要先解析结构，容易出错且消耗更多token。文章提供了具体案例和推荐工具（markitdown、pandoc、LlamaParse），并预告了一个名为“喂AI的艺术”的新系列。

@BlockInsight214: 论文、合同、扫描件丢给 AI 之前，最难的一步往往是「先把 PDF 洗干净」。这几个开源项目专干这件事：转成 Markdown/JSON，直接喂给 RAG 或 agent。 ① MarkItDown · 微软出品，Office/PDF/图…

X AI KOLs Timeline

介绍了五个开源工具（MarkItDown、MinerU、Docling、marker、surya），用于将PDF、Office文档等转换为Markdown或JSON，以便直接供RAG或AI代理使用。

@tom_doerr: 将图像和PDF转换为Markdown，无需OCR https://github.com/NanoNets/docext

X AI KOLs Timeline

docext是一个本地部署的工具包，无需OCR即可将图像和PDF转换为Markdown，利用视觉语言模型。它还引入了Nanonets-OCR-s，一个紧凑的3B参数模型，用于高效的图像到Markdown转换。

相似文章

@Ryrenz: PDF 直接丢给大模型，表格乱码、公式崩溃、扫描件还认不出字。 这 5 个工具帮你把文档转成 AI 能读的干净格式。 1、Stirling-PDF — 本地 PDF 全能工具箱，85k star 合并、拆分、压缩、加水印、转格式，几十种操…

@HowToPrompt__: 有人开源了一个工具，每秒可将PDF转换为Markdown，速度达122页。→ PDF、DOCX、PPTX、XLSX、EPUB、图像…

@AYi_AInotes: https://x.com/AYi_AInotes/status/2058536443174158504

@BlockInsight214: 论文、合同、扫描件丢给 AI 之前，最难的一步往往是「先把 PDF 洗干净」。这几个开源项目专干这件事：转成 Markdown/JSON，直接喂给 RAG 或 agent。 ① MarkItDown · 微软出品，Office/PDF/图…

@tom_doerr: 将图像和PDF转换为Markdown，无需OCR https://github.com/NanoNets/docext

提交意见反馈

@Ryrenz: PDF 直接丢给大模型，表格乱码、公式崩溃、扫描件还认不出字。这 5 个工具帮你把文档转成 AI 能读的干净格式。 1、Stirling-PDF — 本地 PDF 全能工具箱，85k star 合并、拆分、压缩、加水印、转格式，几十种操…