一个温和的建议:重新格式化所有内容,使文档更易于 AI 处理 (5分钟阅读)
摘要
LF AI & Data Foundation 成立了一个工作组来开发 DocLang,这是一种对 AI 友好的文档格式,由 IBM、NVIDIA、Red Hat、ABBYY、HumanSignal 和 Forgis 支持,旨在解决现有格式(如 PDF 和 HTML)不适合 AI 解析的问题。
DocLang 是一种对 AI 友好的文档格式,可帮助企业将文件输入 AI 系统。
查看缓存全文
缓存时间: 2026/06/17 00:52
# 一个审慎的提议:重新格式化所有文档,让AI更容易消化
来源:https://www.theregister.com/ai-and-ml/2026/06/16/a-modest-proposal-reformat-everything-to-make-documents-more-palatable-to-ai/5255938
网站正在被重新设计,以适应AI模型的消费需求,如今一个联盟希望将这一趋势扩展到数字文档领域。
Linux基金会旗下的LF AI & Data基金会(https://lfaidata.foundation/projects/)成立了一个工作组,以引导DocLang(https://doclang.ai/)的开发。这是一种对AI友好的文档格式,旨在帮助企业将其文件输入AI系统。
由IBM、NVIDIA、Red Hat、ABBYY、HumanSignal和Forgis创立的DocLang工作组认为,PDF、Markdown、HTML和LaTeX等现有格式不适合AI文档解析。
2024年底,IBM开发了一个名为Docling(https://research.ibm.com/blog/docling-generative-AI)的开源工具包,以促进AI文档解析,这与微软的MarkItDown(https://github.com/microsoft/markitdown)或Marker(https://pypi.org/project/marker-pdf/0.3.2/)项目类似。Docling提供了一种将各种文件格式转换为结构化、可用于AI的数据的方法。DocLang在此基础上扩展,建立了一种在不同系统之间交换结构化输出的标准。
“DocLang旨在解决企业AI领域最根本的问题之一:文档是为人类而非机器构建的,”AI自动化企业ABBYY的AI战略副总裁Maxime Vermeir在一份声明中表示。“通过引入一种最小化、标准化且原生于AI的文档结构、布局、含义和治理表示方式,DocLang为现代AI系统创建了一个更具确定性的基础。”
规范作者认为,新DocLang格式之所以必要,是因为现有格式是为渲染而设计的,当AI模型将它们转化为token时,会丢失语义信息、结构关系或几何上下文。规范(https://github.com/doclang-project/doclang/blob/main/spec.md)解释说,Markdown范围不足,HTML过于冗长,而LaTeX则允许过高的歧义性。
本质上,DocLang通过一种在DocLang元素和LLM token之间建立1:1映射的标记语言,针对LLM分词器进行了优化。该规范依赖于一个有限的XML词汇表,该词汇表与LLM分词器对齐,从而生成优化的提示词。它是无损的,因此AI转换不会丢弃有价值的信息。它设计支持常见的图形元素,如表格、公式、图表和多模态内容。并且它是一个开放标准。
DocLang还有助于控制成本。根据AI成本检查(https://aicostcheck.com/blog/ai-ocr-document-processing-costs-2026),让AI模型对PDF进行OCR扫描,基线大约需要1200个输入token和150个输出token。
对于企业AI客户而言,如果只是单次使用,这无关紧要,但在大规模应用时就值得重视。而且由于AI模型的token成本差异很大,企业可能会发现,在让AI系统消化PDF时,实际花费超出了预期,尤其是在文档冗长复杂或使用了昂贵的领先模型的情况下。
“PDF是为渲染而设计的,而非理解,”ABBYY的AI价值与实施负责人Jon Knisley在给《The Register》的邮件中表示。“每当PDF进入AI流水线,结构、含义和布局就会丢失,因此模型的准确性最终受限于文档质量而非模型质量。团队通过在每一个集成点构建自定义解析器来弥补,这导致了脆弱且一次性完成的工作,并且每遇到一种新文档类型就需要一次新的工程冲刺。”
据Knisley称,这带来了可衡量的成本。
“模糊的结构迫使模型进行猜测,这增加了幻觉风险,并消耗token来解析布局而非提取含义,”他解释说。“使用DocLang,客户可以预期更高的准确率、更低的成本、更少的token消耗、更快的性能和更一致的输出。具体节省取决于用例和文档复杂度,但我们的初步基准测试显示,根据评估的模型不同,成本可降低4倍到30倍以上。”
Knisley还提到了治理优势,指出文档在迁移过程中,其出处数据和元数据可能会被剥离。他表示,DocLang能保持这些信息不丢失。
提供AI文档处理的ABBYY创建了DocLang交互式基准测试(https://doclang-benchmark.abbyy.tech/),以展示将DocLang文档输入AI模型所节省的token潜力。例如,IBM 2025年度报告的PDF版本产生8,421个输入token和512个输出token,而DocLang版本仅需5,310个输入token和498个输出token。此外,DocLang版本的延迟更低(2.7秒 vs 4.2秒),并且质量更高(AI在PDF版本中遗漏了一个子章节,并搞乱了表格合并)。
“目前仍处于早期阶段,我们不会夸大采用率,”Knisley说。“该标准是开放且免费的,任何人都可以在此基础上构建,工作组正积极邀请更多技术提供商和企业加入。早期的反馈令人鼓舞,我们对未来的发展持乐观态度。” ®
相似文章
@AYi_AInotes: https://x.com/AYi_AInotes/status/2058536443174158504
作者分享了自己三年使用PDF喂AI的踩坑经历,指出Markdown比PDF更适合作为AI输入格式,因为PDF本质上是坐标+字符的混合体,AI需要先解析结构,容易出错且消耗更多token。文章提供了具体案例和推荐工具(markitdown、pandoc、LlamaParse),并预告了一个名为“喂AI的艺术”的新系列。
AI 让我意识到,我不再喜欢阅读长篇 Markdown 文档了
作者反思了 AI 生成文档如何让偏好从 Markdown 转向 HTML,以获得更好的可读性和视觉组织——因为 AI 生成的内容越来越复杂。
发现一个真正有效的人工智能人性化工具(亲自测试过)
对RewriteIQ的评测,这是一款能够有效改写AI生成文本以避免检测的人工智能人性化工具,尤其擅长处理技术性且杂乱草稿。
@oliviscusAI: 您现在可以用一个 17 亿参数的模型解析任何文档,它就是 dots-ocr。一个处理文本、表格等的系统。
本文介绍了 dots-ocr,这是一个拥有 17 亿参数的模型,能够在超过 100 种语言中解析文档中的文本、表格、公式和图像,而无需单独的 OCR 处理流程。
@namcios:Anthropic 刚刚终结了 Markdown。一位 Claude Code 工程师昨天发表了一篇可能预示着新时代开启的文章。
Anthropic 的一位工程师认为,HTML 应取代 Markdown 成为 AI 智能体的主要输出格式,与静态文本报告相比,HTML 能提供交互式界面和共享记忆。