NuExtract3发布:面向Markdown、OCR和结构化提取的开放权重4B视觉语言模型(可自行托管)[P]
摘要
Numind发布了NuExtract3,这是一个基于Qwen3.5-4B的4B开放权重视觉语言模型,专为将文档图像转换为Markdown、OCR和结构化数据提取而设计。该模型采用Apache-2.0许可证,可自行托管,并提供量化版本以适应低显存环境。
免责声明:本人就职于Numind,即此开放权重模型背后的公司。我们刚刚发布了一个基于Qwen3.5-4B的4B模型,采用Apache-2.0许可证。目标是通过开放模型使从复杂文档中提取信息变得更加实用:PDF、截图、表单、表格、收据、发票、多页文档以及其他视觉结构化输入。试试看,我们有一个完全免费的Hugging Face空间(甚至无需注册):[https://huggingface.co/spaces/numind/NuExtract3](https://huggingface.co/spaces/numind/NuExtract3) 如果你曾使用过[NuMarkdown](https://huggingface.co/numind/NuMarkdown-8B-Thinking),NuExtract3就是其继任者。这里有一些示例供参考。欢迎将此模型用于任何任务。
https://preview.redd.it/pm2xbooyxn2h1.png?width=1672&format=png&auto=webp&s=1a8a7b262190c8325159496dae98c3d2dfab493c
https://preview.redd.it/b5z7ylfzxn2h1.png?width=1758&format=png&auto=webp&s=a07b3abd6e5065c2635de047bdf154357f903e4c
[](https://preview.redd.it/nuextract3-released-open-weight-4b-vlm-for-markdown-ocr-and-v0-cdflrhrexn2h1.png?width=1672&format=png&auto=webp&s=f5590cf684a45e4cf2fcd9b1e2929cba7146634e)
[](https://preview.redd.it/nuextract3-released-open-weight-4b-vlm-for-markdown-ocr-and-v0-q3dn99ufxn2h1.png?width=1758&format=png&auto=webp&s=3c987fda617d23a6e51ea69c2f3746fff1a7e2a2)
它专为以下用途设计:
* 将文档图像转换为Markdown
* 使用目标JSON模板从文档中提取结构化数据
* 处理表格、表单和布局密集的页面
* 同时支持文本和视觉文档输入
* 作为文档提取管道的本地/开放权重替代方案
该模型在一个8xH100节点上训练了3天,尽可能充分利用上下文,因此在长文档上表现也相当不错。对于Markdown,我们仍然建议逐页处理以获得最佳效果和推理速度,因为这样可以更好地并行化。该模型非常易于自行托管,因为我们提供了相当详细的文档、Safetensors、GGUF和MLX权重。低至4GB的显存即可运行。我们提供了多种量化版本(GPTQ、W8A8、FP8、Q4、Q6...),因此你可以在任何地方运行它。我们主要测试了vLLM、SGLang和llama.cpp。
我们有一篇博文和一个相当不错的模型卡片:
* [https://about.nuextract.ai/blog/nuextract-3-release](https://about.nuextract.ai/blog/nuextract-3-release)
* [https://huggingface.co/numind/NuExtract3](https://huggingface.co/numind/NuExtract3)
* [https://huggingface.co/collections/numind/nuextract3](https://huggingface.co/collections/numind/nuextract3)
我目前正在撰写关于该模型的论文,一旦被接受就会发布。由于已提交给同行评审期刊/会议,目前尚未上传至Arxiv。如有任何问题,我会尽力回答。我们非常欢迎社区的反馈。我们还有一个Discord频道,如果你感兴趣的话:[https://discord.com/invite/3tsEtJNCDe](https://discord.com/invite/3tsEtJNCDe)
相似文章
@liquidai: 推出 LFM2.5-VL-1.6B-Extract 和 LFM2.5-VL-450M-Extract:返回结构化JSON的视觉语言模型,而非…
Liquid AI发布了LFM2.5-VL-1.6B-Extract和LFM2.5-VL-450M-Extract,这些视觉语言模型能从图像和字段列表中输出结构化JSON。模型为开放权重,提供两种规格。
@tom_doerr: 将图像和PDF转换为Markdown,无需OCR https://github.com/NanoNets/docext
docext是一个本地部署的工具包,无需OCR即可将图像和PDF转换为Markdown,利用视觉语言模型。它还引入了Nanonets-OCR-s,一个紧凑的3B参数模型,用于高效的图像到Markdown转换。
@techNmak:1.7B 参数轻量 VLM,在 OmniDocBench 上碾压巨头的 OCR 新王者
仅 1.7B 参数的多语言文档解析器 dots.ocr,用轻量体积实现 SOTA,证明文档理解无需巨无霸模型。
RedHatAI/Qwen3.6-35B-A3B-NVFP4
Red Hat AI 发布 NVFP4 量化的 35B MoE 版 Qwen3.6,在保持 96.28% GSM8K 精度的同时,通过 vLLM 实现 4-bit 推理。
Qwen3.7预览版登陆Arena(1分钟阅读)
阿里巴巴Qwen宣布两大重要模型发布:Qwen3-Omni,首个原生端到端全模态AI,统一处理文本、图像、音频和视频;以及Qwen3-Next-80B-A3B,一款超高效MoE模型,每个token激活30亿参数,实现了SOTA性能,推理速度比Qwen3-32B快10倍。