SmolDocling:一种超紧凑的端到端多模态文档转换视觉语言模型
摘要
SmolDocling 是一款紧凑型 2.56 亿参数视觉语言模型,专为端到端多模态文档转换设计。它引入了一种名为 DocTags 的新型通用标记格式,用于捕获带有位置信息的页面元素,其表现可与体积大 27 倍的模型相媲美。
查看缓存全文
缓存时间: 2026/05/08 08:43
论文页面 - SmolDocling:用于端到端多模态文档转换的超紧凑型视觉-语言模型
来源:https://huggingface.co/papers/2503.11576
摘要
SmolDocling 是一款紧凑型视觉-语言模型,仅使用 2.56 亿参数和一种新的标记格式,即可在多种文档类型上实现具有鲁棒性能的端到端文档转换。
我们介绍了 SmolDocling,一款超紧凑型视觉-语言模型 (https://huggingface.co/papers?q=vision-language%20model),旨在实现端到端的文档转换 (https://huggingface.co/papers?q=end-to-end%20document%20conversion)。我们的模型通过生成 DocTags (https://huggingface.co/papers?q=DocTags)——一种新的通用标记格式 (https://huggingface.co/papers?q=universal%20markup%20format)——来全面处理整页内容,该格式能够在全局上下文和位置信息中捕捉所有页面元素 (https://huggingface.co/papers?q=page%20elements)。与依赖大型基础模型 (https://huggingface.co/papers?q=large%20foundational%20models) 或依赖由多个专用模型 (https://huggingface.co/papers?q=specialized%20models) 组成的手工定制管道集成方案 (https://huggingface.co/papers?q=ensemble%20solutions) 的现有方法不同,SmolDocling 提供了一种端到端的转换方案,能够在仅含 2.56 亿参数的视觉-语言模型 (https://huggingface.co/papers?q=vision-language%20model) 中准确捕捉文档元素的内容、结构和空间位置。SmolDocling 在正确重现文档特征方面表现出强大的性能,包括代码片段 (https://huggingface.co/papers?q=code%20listings)、表格 (https://huggingface.co/papers?q=tables)、公式 (https://huggingface.co/papers?q=equations)、图表 (https://huggingface.co/papers?q=charts)、列表 (https://huggingface.co/papers?q=lists) 等,适用于各种文档类型,包括商务文档、学术论文、技术报告、专利和表格——这极大地超出了通常侧重于科学论文的关注范围。此外,我们贡献了用于图表 (https://huggingface.co/papers?q=charts)、表格 (https://huggingface.co/papers?q=tables)、公式 (https://huggingface.co/papers?q=equations) 和代码识别的全新公开数据集 (https://huggingface.co/papers?q=publicly%20sourced%20datasets)。实验结果表明,SmolDocling 能够与体积大至其 27 倍的其他视觉语言模型 (https://huggingface.co/papers?q=Vision%20Language%20Models) 相竞争,同时大幅降低了计算需求 (https://huggingface.co/papers?q=computational%20requirements)。该模型目前已可用,数据集将于不久后公开。
查看 arXiv 页面 (https://arxiv.org/abs/2503.11576) 查看 PDF (https://arxiv.org/pdf/2503.11576) 项目页面 (https://huggingface.co/ds4sd/SmolDocling-256M-preview) GitHub 59.4k 自动 (https://github.com/docling-project/docling) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2503.11576)
在你的代理中获取此论文:
hf papers read 2503.11576
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 16
docling-project/SmolDocling-256M-preview 图像-文本到文本 • 更新于 2025 年 9 月 17 日 • 29.8k • 1.61k (https://huggingface.co/docling-project/SmolDocling-256M-preview)
ibm-granite/granite-docling-258M 图像-文本到文本 • 0.3B • 更新于 2025 年 9 月 23 日 • 283k • 1.17k (https://huggingface.co/ibm-granite/granite-docling-258M)
docling-project/CodeFormulaV2 0.3B • 更新于 2025 年 8 月 11 日 • 68.4k • 4 (https://huggingface.co/docling-project/CodeFormulaV2)
prithivMLmods/granite-docling-258M-f32-GGUF 图像-文本到文本 • 0.2B • 更新于 2025 年 11 月 12 日 • 184 • 3 (https://huggingface.co/prithivMLmods/granite-docling-258M-f32-GGUF)
浏览引用此论文的 16 个模型 (https://huggingface.co/models?other=arxiv:2503.11576)
引用此论文的数据集 7
mnezama/SynthCodeNet 查看器 • 更新于 1 月 28 日 • 9.33M • 5.04k (https://huggingface.co/datasets/mnezama/SynthCodeNet)
docling-project/SynthCodeNet 查看器 • 更新于 2025 年 7 月 16 日 • 9.33M • 3.45k • 13 (https://huggingface.co/datasets/docling-project/SynthCodeNet)
HuggingFaceM4/DoclingMatix 查看器 • 更新于 2025 年 7 月 31 日 • 1.27M • 1.15k • 51 (https://huggingface.co/datasets/HuggingFaceM4/DoclingMatix)
docling-project/SynthFormulaNet 查看器 • 更新于 2025 年 7 月 31 日 • 6.45M • 967 • 17 (https://huggingface.co/datasets/docling-project/SynthFormulaNet)
浏览引用此论文的 7 个数据集 (https://huggingface.co/datasets?other=arxiv:2503.11576)
引用此论文的 Space 24
包含此论文的收藏集 45
浏览包含此论文的 45 个收藏集 (https://huggingface.co/collections?paper=2503.11576)
相似文章
@techNmak:1.7B 参数轻量 VLM,在 OmniDocBench 上碾压巨头的 OCR 新王者
仅 1.7B 参数的多语言文档解析器 dots.ocr,用轻量体积实现 SOTA,证明文档理解无需巨无霸模型。
PaddleOCR-VL:通过 0.9B 超紧凑视觉语言模型提升多语言文档解析能力
PaddleOCR-VL 是一个紧凑的 0.9B 视觉语言模型,通过集成 NaViT 风格的动态分辨率与 ERNIE 语言模型,在多语言文档解析和元素识别方面实现了最先进的性能。
MinerU2.5:一种用于高效高分辨率文档解析的解耦视觉-语言模型
MinerU2.5 是一个拥有 12 亿参数的视觉-语言模型,通过采用由粗到细的解析策略,在保持高计算效率的同时实现了最先进的文档解析准确率。
@tom_doerr: 将图像和PDF转换为Markdown,无需OCR https://github.com/NanoNets/docext
docext是一个本地部署的工具包,无需OCR即可将图像和PDF转换为Markdown,利用视觉语言模型。它还引入了Nanonets-OCR-s,一个紧凑的3B参数模型,用于高效的图像到Markdown转换。
@cjzafir: 垂直语言模型(VLMs)正在击败顶级大语言模型。这些参数量7B到15B的小型专精模型在各自的细分领域击败了SoTA模型……
作者演示了,通过使用开源模型和Codex编排进行高性价比微调,小型垂直语言模型(6B-15B)能够在细分基准上超越顶级大语言模型,仅用价值300美元的数据集就取得了成果。