SmolDocling:一种超紧凑的端到端多模态文档转换视觉语言模型

Papers with Code Trending 论文

摘要

SmolDocling 是一款紧凑型 2.56 亿参数视觉语言模型,专为端到端多模态文档转换设计。它引入了一种名为 DocTags 的新型通用标记格式,用于捕获带有位置信息的页面元素,其表现可与体积大 27 倍的模型相媲美。

我们推出了 SmolDocling,这是一款面向端到端文档转换的超紧凑视觉语言模型。我们的模型通过生成 DocTags 全面处理整个页面。DocTags 是一种新的通用标记格式,能够在包含完整上下文的同时,精准捕获所有页面元素及其位置信息。与依赖大型基础模型的现有方法,或依赖多个专用模型手工组合流水线的集成方案不同,SmolDocling 在一个仅含 2.56 亿参数的视觉语言模型中实现了端到端的转换,从而准确地捕获文档内容、结构以及空间位置。 SmolDocling 在复现代码列表、表格、公式、图表、列表等文档特征方面表现出强劲的性能,且适用于多种多样的文档类型,包括商业文档、学术论文、技术报告、专利和表单等——这一应用范围远超以往常见的仅关注科学论文的做法。此外,我们还贡献了用于图表、表格、公式和代码识别的全新公开来源数据集。实验结果表明,SmolDocling 的性能可与体积大至 27 倍的其他视觉语言模型相竞争,同时大幅降低了计算需求。该模型目前已可用,相关数据集也将很快公开。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 08:43

论文页面 - SmolDocling:用于端到端多模态文档转换的超紧凑型视觉-语言模型

来源:https://huggingface.co/papers/2503.11576

摘要

SmolDocling 是一款紧凑型视觉-语言模型,仅使用 2.56 亿参数和一种新的标记格式,即可在多种文档类型上实现具有鲁棒性能的端到端文档转换。

我们介绍了 SmolDocling,一款超紧凑型视觉-语言模型 (https://huggingface.co/papers?q=vision-language%20model),旨在实现端到端的文档转换 (https://huggingface.co/papers?q=end-to-end%20document%20conversion)。我们的模型通过生成 DocTags (https://huggingface.co/papers?q=DocTags)——一种新的通用标记格式 (https://huggingface.co/papers?q=universal%20markup%20format)——来全面处理整页内容,该格式能够在全局上下文和位置信息中捕捉所有页面元素 (https://huggingface.co/papers?q=page%20elements)。与依赖大型基础模型 (https://huggingface.co/papers?q=large%20foundational%20models) 或依赖由多个专用模型 (https://huggingface.co/papers?q=specialized%20models) 组成的手工定制管道集成方案 (https://huggingface.co/papers?q=ensemble%20solutions) 的现有方法不同,SmolDocling 提供了一种端到端的转换方案,能够在仅含 2.56 亿参数的视觉-语言模型 (https://huggingface.co/papers?q=vision-language%20model) 中准确捕捉文档元素的内容、结构和空间位置。SmolDocling 在正确重现文档特征方面表现出强大的性能,包括代码片段 (https://huggingface.co/papers?q=code%20listings)、表格 (https://huggingface.co/papers?q=tables)、公式 (https://huggingface.co/papers?q=equations)、图表 (https://huggingface.co/papers?q=charts)、列表 (https://huggingface.co/papers?q=lists) 等,适用于各种文档类型,包括商务文档、学术论文、技术报告、专利和表格——这极大地超出了通常侧重于科学论文的关注范围。此外,我们贡献了用于图表 (https://huggingface.co/papers?q=charts)、表格 (https://huggingface.co/papers?q=tables)、公式 (https://huggingface.co/papers?q=equations) 和代码识别的全新公开数据集 (https://huggingface.co/papers?q=publicly%20sourced%20datasets)。实验结果表明,SmolDocling 能够与体积大至其 27 倍的其他视觉语言模型 (https://huggingface.co/papers?q=Vision%20Language%20Models) 相竞争,同时大幅降低了计算需求 (https://huggingface.co/papers?q=computational%20requirements)。该模型目前已可用,数据集将于不久后公开。

查看 arXiv 页面 (https://arxiv.org/abs/2503.11576) 查看 PDF (https://arxiv.org/pdf/2503.11576) 项目页面 (https://huggingface.co/ds4sd/SmolDocling-256M-preview) GitHub 59.4k 自动 (https://github.com/docling-project/docling) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2503.11576)

在你的代理中获取此论文:

hf papers read 2503.11576

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 16

docling-project/SmolDocling-256M-preview 图像-文本到文本 • 更新于 2025 年 9 月 17 日 • 29.8k • 1.61k (https://huggingface.co/docling-project/SmolDocling-256M-preview)

ibm-granite/granite-docling-258M 图像-文本到文本 • 0.3B • 更新于 2025 年 9 月 23 日 • 283k • 1.17k (https://huggingface.co/ibm-granite/granite-docling-258M)

docling-project/CodeFormulaV2 0.3B • 更新于 2025 年 8 月 11 日 • 68.4k • 4 (https://huggingface.co/docling-project/CodeFormulaV2)

prithivMLmods/granite-docling-258M-f32-GGUF 图像-文本到文本 • 0.2B • 更新于 2025 年 11 月 12 日 • 184 • 3 (https://huggingface.co/prithivMLmods/granite-docling-258M-f32-GGUF)

浏览引用此论文的 16 个模型 (https://huggingface.co/models?other=arxiv:2503.11576)

引用此论文的数据集 7

mnezama/SynthCodeNet 查看器 • 更新于 1 月 28 日 • 9.33M • 5.04k (https://huggingface.co/datasets/mnezama/SynthCodeNet)

docling-project/SynthCodeNet 查看器 • 更新于 2025 年 7 月 16 日 • 9.33M • 3.45k • 13 (https://huggingface.co/datasets/docling-project/SynthCodeNet)

HuggingFaceM4/DoclingMatix 查看器 • 更新于 2025 年 7 月 31 日 • 1.27M • 1.15k • 51 (https://huggingface.co/datasets/HuggingFaceM4/DoclingMatix)

docling-project/SynthFormulaNet 查看器 • 更新于 2025 年 7 月 31 日 • 6.45M • 967 • 17 (https://huggingface.co/datasets/docling-project/SynthFormulaNet)

浏览引用此论文的 7 个数据集 (https://huggingface.co/datasets?other=arxiv:2503.11576)

引用此论文的 Space 24

包含此论文的收藏集 45

浏览包含此论文的 45 个收藏集 (https://huggingface.co/collections?paper=2503.11576)

相似文章