一个温和的建议:重新格式化所有内容,使文档更易于 AI 处理 (5分钟阅读)

TLDR AI 新闻

摘要

LF AI & Data Foundation 成立了一个工作组来开发 DocLang,这是一种对 AI 友好的文档格式,由 IBM、NVIDIA、Red Hat、ABBYY、HumanSignal 和 Forgis 支持,旨在解决现有格式(如 PDF 和 HTML)不适合 AI 解析的问题。

DocLang 是一种对 AI 友好的文档格式,可帮助企业将文件输入 AI 系统。
查看原文
查看缓存全文

缓存时间: 2026/06/17 00:52

# 一个审慎的提议:重新格式化所有文档,让AI更容易消化 来源:https://www.theregister.com/ai-and-ml/2026/06/16/a-modest-proposal-reformat-everything-to-make-documents-more-palatable-to-ai/5255938 网站正在被重新设计,以适应AI模型的消费需求,如今一个联盟希望将这一趋势扩展到数字文档领域。 Linux基金会旗下的LF AI & Data基金会(https://lfaidata.foundation/projects/)成立了一个工作组,以引导DocLang(https://doclang.ai/)的开发。这是一种对AI友好的文档格式,旨在帮助企业将其文件输入AI系统。 由IBM、NVIDIA、Red Hat、ABBYY、HumanSignal和Forgis创立的DocLang工作组认为,PDF、Markdown、HTML和LaTeX等现有格式不适合AI文档解析。 2024年底,IBM开发了一个名为Docling(https://research.ibm.com/blog/docling-generative-AI)的开源工具包,以促进AI文档解析,这与微软的MarkItDown(https://github.com/microsoft/markitdown)或Marker(https://pypi.org/project/marker-pdf/0.3.2/)项目类似。Docling提供了一种将各种文件格式转换为结构化、可用于AI的数据的方法。DocLang在此基础上扩展,建立了一种在不同系统之间交换结构化输出的标准。 “DocLang旨在解决企业AI领域最根本的问题之一:文档是为人类而非机器构建的,”AI自动化企业ABBYY的AI战略副总裁Maxime Vermeir在一份声明中表示。“通过引入一种最小化、标准化且原生于AI的文档结构、布局、含义和治理表示方式,DocLang为现代AI系统创建了一个更具确定性的基础。” 规范作者认为,新DocLang格式之所以必要,是因为现有格式是为渲染而设计的,当AI模型将它们转化为token时,会丢失语义信息、结构关系或几何上下文。规范(https://github.com/doclang-project/doclang/blob/main/spec.md)解释说,Markdown范围不足,HTML过于冗长,而LaTeX则允许过高的歧义性。 本质上,DocLang通过一种在DocLang元素和LLM token之间建立1:1映射的标记语言,针对LLM分词器进行了优化。该规范依赖于一个有限的XML词汇表,该词汇表与LLM分词器对齐,从而生成优化的提示词。它是无损的,因此AI转换不会丢弃有价值的信息。它设计支持常见的图形元素,如表格、公式、图表和多模态内容。并且它是一个开放标准。 DocLang还有助于控制成本。根据AI成本检查(https://aicostcheck.com/blog/ai-ocr-document-processing-costs-2026),让AI模型对PDF进行OCR扫描,基线大约需要1200个输入token和150个输出token。 对于企业AI客户而言,如果只是单次使用,这无关紧要,但在大规模应用时就值得重视。而且由于AI模型的token成本差异很大,企业可能会发现,在让AI系统消化PDF时,实际花费超出了预期,尤其是在文档冗长复杂或使用了昂贵的领先模型的情况下。 “PDF是为渲染而设计的,而非理解,”ABBYY的AI价值与实施负责人Jon Knisley在给《The Register》的邮件中表示。“每当PDF进入AI流水线,结构、含义和布局就会丢失,因此模型的准确性最终受限于文档质量而非模型质量。团队通过在每一个集成点构建自定义解析器来弥补,这导致了脆弱且一次性完成的工作,并且每遇到一种新文档类型就需要一次新的工程冲刺。” 据Knisley称,这带来了可衡量的成本。 “模糊的结构迫使模型进行猜测,这增加了幻觉风险,并消耗token来解析布局而非提取含义,”他解释说。“使用DocLang,客户可以预期更高的准确率、更低的成本、更少的token消耗、更快的性能和更一致的输出。具体节省取决于用例和文档复杂度,但我们的初步基准测试显示,根据评估的模型不同,成本可降低4倍到30倍以上。” Knisley还提到了治理优势,指出文档在迁移过程中,其出处数据和元数据可能会被剥离。他表示,DocLang能保持这些信息不丢失。 提供AI文档处理的ABBYY创建了DocLang交互式基准测试(https://doclang-benchmark.abbyy.tech/),以展示将DocLang文档输入AI模型所节省的token潜力。例如,IBM 2025年度报告的PDF版本产生8,421个输入token和512个输出token,而DocLang版本仅需5,310个输入token和498个输出token。此外,DocLang版本的延迟更低(2.7秒 vs 4.2秒),并且质量更高(AI在PDF版本中遗漏了一个子章节,并搞乱了表格合并)。 “目前仍处于早期阶段,我们不会夸大采用率,”Knisley说。“该标准是开放且免费的,任何人都可以在此基础上构建,工作组正积极邀请更多技术提供商和企业加入。早期的反馈令人鼓舞,我们对未来的发展持乐观态度。” ®

相似文章

@AYi_AInotes: https://x.com/AYi_AInotes/status/2058536443174158504

X AI KOLs Timeline

作者分享了自己三年使用PDF喂AI的踩坑经历,指出Markdown比PDF更适合作为AI输入格式,因为PDF本质上是坐标+字符的混合体,AI需要先解析结构,容易出错且消耗更多token。文章提供了具体案例和推荐工具(markitdown、pandoc、LlamaParse),并预告了一个名为“喂AI的艺术”的新系列。