一个温和的建议：重新格式化所有内容，使文档更易于 AI 处理 (5分钟阅读)

TLDR AI 2026/06/16 00:00 新闻

document-format ai-parsing pdf-alternative open-standard llm enterprise-ai doclang

摘要

LF AI & Data Foundation 成立了一个工作组来开发 DocLang，这是一种对 AI 友好的文档格式，由 IBM、NVIDIA、Red Hat、ABBYY、HumanSignal 和 Forgis 支持，旨在解决现有格式（如 PDF 和 HTML）不适合 AI 解析的问题。

DocLang 是一种对 AI 友好的文档格式，可帮助企业将文件输入 AI 系统。

查看原文

查看缓存全文

缓存时间: 2026/06/17 00:52

# 一个审慎的提议：重新格式化所有文档，让AI更容易消化来源：https://www.theregister.com/ai-and-ml/2026/06/16/a-modest-proposal-reformat-everything-to-make-documents-more-palatable-to-ai/5255938 网站正在被重新设计，以适应AI模型的消费需求，如今一个联盟希望将这一趋势扩展到数字文档领域。 Linux基金会旗下的LF AI & Data基金会（https://lfaidata.foundation/projects/）成立了一个工作组，以引导DocLang（https://doclang.ai/）的开发。这是一种对AI友好的文档格式，旨在帮助企业将其文件输入AI系统。由IBM、NVIDIA、Red Hat、ABBYY、HumanSignal和Forgis创立的DocLang工作组认为，PDF、Markdown、HTML和LaTeX等现有格式不适合AI文档解析。 2024年底，IBM开发了一个名为Docling（https://research.ibm.com/blog/docling-generative-AI）的开源工具包，以促进AI文档解析，这与微软的MarkItDown（https://github.com/microsoft/markitdown）或Marker（https://pypi.org/project/marker-pdf/0.3.2/）项目类似。Docling提供了一种将各种文件格式转换为结构化、可用于AI的数据的方法。DocLang在此基础上扩展，建立了一种在不同系统之间交换结构化输出的标准。 “DocLang旨在解决企业AI领域最根本的问题之一：文档是为人类而非机器构建的，”AI自动化企业ABBYY的AI战略副总裁Maxime Vermeir在一份声明中表示。“通过引入一种最小化、标准化且原生于AI的文档结构、布局、含义和治理表示方式，DocLang为现代AI系统创建了一个更具确定性的基础。” 规范作者认为，新DocLang格式之所以必要，是因为现有格式是为渲染而设计的，当AI模型将它们转化为token时，会丢失语义信息、结构关系或几何上下文。规范（https://github.com/doclang-project/doclang/blob/main/spec.md）解释说，Markdown范围不足，HTML过于冗长，而LaTeX则允许过高的歧义性。本质上，DocLang通过一种在DocLang元素和LLM token之间建立1:1映射的标记语言，针对LLM分词器进行了优化。该规范依赖于一个有限的XML词汇表，该词汇表与LLM分词器对齐，从而生成优化的提示词。它是无损的，因此AI转换不会丢弃有价值的信息。它设计支持常见的图形元素，如表格、公式、图表和多模态内容。并且它是一个开放标准。 DocLang还有助于控制成本。根据AI成本检查（https://aicostcheck.com/blog/ai-ocr-document-processing-costs-2026），让AI模型对PDF进行OCR扫描，基线大约需要1200个输入token和150个输出token。对于企业AI客户而言，如果只是单次使用，这无关紧要，但在大规模应用时就值得重视。而且由于AI模型的token成本差异很大，企业可能会发现，在让AI系统消化PDF时，实际花费超出了预期，尤其是在文档冗长复杂或使用了昂贵的领先模型的情况下。 “PDF是为渲染而设计的，而非理解，”ABBYY的AI价值与实施负责人Jon Knisley在给《The Register》的邮件中表示。“每当PDF进入AI流水线，结构、含义和布局就会丢失，因此模型的准确性最终受限于文档质量而非模型质量。团队通过在每一个集成点构建自定义解析器来弥补，这导致了脆弱且一次性完成的工作，并且每遇到一种新文档类型就需要一次新的工程冲刺。” 据Knisley称，这带来了可衡量的成本。 “模糊的结构迫使模型进行猜测，这增加了幻觉风险，并消耗token来解析布局而非提取含义，”他解释说。“使用DocLang，客户可以预期更高的准确率、更低的成本、更少的token消耗、更快的性能和更一致的输出。具体节省取决于用例和文档复杂度，但我们的初步基准测试显示，根据评估的模型不同，成本可降低4倍到30倍以上。” Knisley还提到了治理优势，指出文档在迁移过程中，其出处数据和元数据可能会被剥离。他表示，DocLang能保持这些信息不丢失。提供AI文档处理的ABBYY创建了DocLang交互式基准测试（https://doclang-benchmark.abbyy.tech/），以展示将DocLang文档输入AI模型所节省的token潜力。例如，IBM 2025年度报告的PDF版本产生8,421个输入token和512个输出token，而DocLang版本仅需5,310个输入token和498个输出token。此外，DocLang版本的延迟更低（2.7秒 vs 4.2秒），并且质量更高（AI在PDF版本中遗漏了一个子章节，并搞乱了表格合并）。 “目前仍处于早期阶段，我们不会夸大采用率，”Knisley说。“该标准是开放且免费的，任何人都可以在此基础上构建，工作组正积极邀请更多技术提供商和企业加入。早期的反馈令人鼓舞，我们对未来的发展持乐观态度。” ®

一个温和的建议：重新格式化所有内容，使文档更易于 AI 处理 (5分钟阅读)

相似文章

@AYi_AInotes: https://x.com/AYi_AInotes/status/2058536443174158504

AI 让我意识到，我不再喜欢阅读长篇 Markdown 文档了

发现一个真正有效的人工智能人性化工具（亲自测试过）

@oliviscusAI: 您现在可以用一个 17 亿参数的模型解析任何文档，它就是 dots-ocr。一个处理文本、表格等的系统。

@namcios：Anthropic 刚刚终结了 Markdown。一位 Claude Code 工程师昨天发表了一篇可能预示着新时代开启的文章。

提交意见反馈