SmolDocling：一种超紧凑的端到端多模态文档转换视觉语言模型

Papers with Code Trending 2025/03/14 16:44 论文

vision-language-model document-processing small-language-models ocr open-source hugging-face

摘要

SmolDocling 是一款紧凑型 2.56 亿参数视觉语言模型，专为端到端多模态文档转换设计。它引入了一种名为 DocTags 的新型通用标记格式，用于捕获带有位置信息的页面元素，其表现可与体积大 27 倍的模型相媲美。

我们推出了 SmolDocling，这是一款面向端到端文档转换的超紧凑视觉语言模型。我们的模型通过生成 DocTags 全面处理整个页面。DocTags 是一种新的通用标记格式，能够在包含完整上下文的同时，精准捕获所有页面元素及其位置信息。与依赖大型基础模型的现有方法，或依赖多个专用模型手工组合流水线的集成方案不同，SmolDocling 在一个仅含 2.56 亿参数的视觉语言模型中实现了端到端的转换，从而准确地捕获文档内容、结构以及空间位置。 SmolDocling 在复现代码列表、表格、公式、图表、列表等文档特征方面表现出强劲的性能，且适用于多种多样的文档类型，包括商业文档、学术论文、技术报告、专利和表单等——这一应用范围远超以往常见的仅关注科学论文的做法。此外，我们还贡献了用于图表、表格、公式和代码识别的全新公开来源数据集。实验结果表明，SmolDocling 的性能可与体积大至 27 倍的其他视觉语言模型相竞争，同时大幅降低了计算需求。该模型目前已可用，相关数据集也将很快公开。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/08 08:43

论文页面 - SmolDocling：用于端到端多模态文档转换的超紧凑型视觉-语言模型

来源：https://huggingface.co/papers/2503.11576

摘要

SmolDocling 是一款紧凑型视觉-语言模型，仅使用 2.56 亿参数和一种新的标记格式，即可在多种文档类型上实现具有鲁棒性能的端到端文档转换。

我们介绍了 SmolDocling，一款超紧凑型视觉-语言模型 (https://huggingface.co/papers?q=vision-language%20model)，旨在实现端到端的文档转换 (https://huggingface.co/papers?q=end-to-end%20document%20conversion)。我们的模型通过生成 DocTags (https://huggingface.co/papers?q=DocTags)——一种新的通用标记格式 (https://huggingface.co/papers?q=universal%20markup%20format)——来全面处理整页内容，该格式能够在全局上下文和位置信息中捕捉所有页面元素 (https://huggingface.co/papers?q=page%20elements)。与依赖大型基础模型 (https://huggingface.co/papers?q=large%20foundational%20models) 或依赖由多个专用模型 (https://huggingface.co/papers?q=specialized%20models) 组成的手工定制管道集成方案 (https://huggingface.co/papers?q=ensemble%20solutions) 的现有方法不同，SmolDocling 提供了一种端到端的转换方案，能够在仅含 2.56 亿参数的视觉-语言模型 (https://huggingface.co/papers?q=vision-language%20model) 中准确捕捉文档元素的内容、结构和空间位置。SmolDocling 在正确重现文档特征方面表现出强大的性能，包括代码片段 (https://huggingface.co/papers?q=code%20listings)、表格 (https://huggingface.co/papers?q=tables)、公式 (https://huggingface.co/papers?q=equations)、图表 (https://huggingface.co/papers?q=charts)、列表 (https://huggingface.co/papers?q=lists) 等，适用于各种文档类型，包括商务文档、学术论文、技术报告、专利和表格——这极大地超出了通常侧重于科学论文的关注范围。此外，我们贡献了用于图表 (https://huggingface.co/papers?q=charts)、表格 (https://huggingface.co/papers?q=tables)、公式 (https://huggingface.co/papers?q=equations) 和代码识别的全新公开数据集 (https://huggingface.co/papers?q=publicly%20sourced%20datasets)。实验结果表明，SmolDocling 能够与体积大至其 27 倍的其他视觉语言模型 (https://huggingface.co/papers?q=Vision%20Language%20Models) 相竞争，同时大幅降低了计算需求 (https://huggingface.co/papers?q=computational%20requirements)。该模型目前已可用，数据集将于不久后公开。

查看 arXiv 页面 (https://arxiv.org/abs/2503.11576) 查看 PDF (https://arxiv.org/pdf/2503.11576) 项目页面 (https://huggingface.co/ds4sd/SmolDocling-256M-preview) GitHub 59.4k 自动 (https://github.com/docling-project/docling) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2503.11576)

在你的代理中获取此论文：

hf papers read 2503.11576

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 16

docling-project/SmolDocling-256M-preview 图像-文本到文本 • 更新于 2025 年 9 月 17 日 • 29.8k • 1.61k (https://huggingface.co/docling-project/SmolDocling-256M-preview)

ibm-granite/granite-docling-258M 图像-文本到文本 • 0.3B • 更新于 2025 年 9 月 23 日 • 283k • 1.17k (https://huggingface.co/ibm-granite/granite-docling-258M)

docling-project/CodeFormulaV2 0.3B • 更新于 2025 年 8 月 11 日 • 68.4k • 4 (https://huggingface.co/docling-project/CodeFormulaV2)

prithivMLmods/granite-docling-258M-f32-GGUF 图像-文本到文本 • 0.2B • 更新于 2025 年 11 月 12 日 • 184 • 3 (https://huggingface.co/prithivMLmods/granite-docling-258M-f32-GGUF)

浏览引用此论文的 16 个模型 (https://huggingface.co/models?other=arxiv:2503.11576)

引用此论文的数据集 7

mnezama/SynthCodeNet 查看器 • 更新于 1 月 28 日 • 9.33M • 5.04k (https://huggingface.co/datasets/mnezama/SynthCodeNet)

docling-project/SynthCodeNet 查看器 • 更新于 2025 年 7 月 16 日 • 9.33M • 3.45k • 13 (https://huggingface.co/datasets/docling-project/SynthCodeNet)

HuggingFaceM4/DoclingMatix 查看器 • 更新于 2025 年 7 月 31 日 • 1.27M • 1.15k • 51 (https://huggingface.co/datasets/HuggingFaceM4/DoclingMatix)

docling-project/SynthFormulaNet 查看器 • 更新于 2025 年 7 月 31 日 • 6.45M • 967 • 17 (https://huggingface.co/datasets/docling-project/SynthFormulaNet)

浏览引用此论文的 7 个数据集 (https://huggingface.co/datasets?other=arxiv:2503.11576)

引用此论文的 Space 24

包含此论文的收藏集 45

浏览包含此论文的 45 个收藏集 (https://huggingface.co/collections?paper=2503.11576)

SmolDocling：一种超紧凑的端到端多模态文档转换视觉语言模型

论文页面 - SmolDocling：用于端到端多模态文档转换的超紧凑型视觉-语言模型

摘要

引用此论文的模型 16

docling-project/SmolDocling-256M-preview 图像-文本到文本 • 更新于 2025 年 9 月 17 日 • 29.8k • 1.61k (https://huggingface.co/docling-project/SmolDocling-256M-preview)

ibm-granite/granite-docling-258M 图像-文本到文本 • 0.3B • 更新于 2025 年 9 月 23 日 • 283k • 1.17k (https://huggingface.co/ibm-granite/granite-docling-258M)

docling-project/CodeFormulaV2 0.3B • 更新于 2025 年 8 月 11 日 • 68.4k • 4 (https://huggingface.co/docling-project/CodeFormulaV2)

prithivMLmods/granite-docling-258M-f32-GGUF 图像-文本到文本 • 0.2B • 更新于 2025 年 11 月 12 日 • 184 • 3 (https://huggingface.co/prithivMLmods/granite-docling-258M-f32-GGUF)

引用此论文的数据集 7

mnezama/SynthCodeNet 查看器 • 更新于 1 月 28 日 • 9.33M • 5.04k (https://huggingface.co/datasets/mnezama/SynthCodeNet)

docling-project/SynthCodeNet 查看器 • 更新于 2025 年 7 月 16 日 • 9.33M • 3.45k • 13 (https://huggingface.co/datasets/docling-project/SynthCodeNet)

HuggingFaceM4/DoclingMatix 查看器 • 更新于 2025 年 7 月 31 日 • 1.27M • 1.15k • 51 (https://huggingface.co/datasets/HuggingFaceM4/DoclingMatix)

docling-project/SynthFormulaNet 查看器 • 更新于 2025 年 7 月 31 日 • 6.45M • 967 • 17 (https://huggingface.co/datasets/docling-project/SynthFormulaNet)

引用此论文的 Space 24

包含此论文的收藏集 45

相似文章

@techNmak：1.7B 参数轻量 VLM，在 OmniDocBench 上碾压巨头的 OCR 新王者

PaddleOCR-VL：通过 0.9B 超紧凑视觉语言模型提升多语言文档解析能力

MinerU2.5：一种用于高效高分辨率文档解析的解耦视觉-语言模型

@tom_doerr: 将图像和PDF转换为Markdown，无需OCR https://github.com/NanoNets/docext

@cjzafir: 垂直语言模型（VLMs）正在击败顶级大语言模型。这些参数量7B到15B的小型专精模型在各自的细分领域击败了SoTA模型……

提交意见反馈