NuExtract3发布：面向Markdown、OCR和结构化提取的开放权重4B视觉语言模型（可自行托管）[P]

Reddit r/MachineLearning 2026/05/22 10:07 模型

open-weight vision-language-model markdown ocr structured-extraction self-hostable qwen

摘要

Numind发布了NuExtract3，这是一个基于Qwen3.5-4B的4B开放权重视觉语言模型，专为将文档图像转换为Markdown、OCR和结构化数据提取而设计。该模型采用Apache-2.0许可证，可自行托管，并提供量化版本以适应低显存环境。

免责声明：本人就职于Numind，即此开放权重模型背后的公司。我们刚刚发布了一个基于Qwen3.5-4B的4B模型，采用Apache-2.0许可证。目标是通过开放模型使从复杂文档中提取信息变得更加实用：PDF、截图、表单、表格、收据、发票、多页文档以及其他视觉结构化输入。试试看，我们有一个完全免费的Hugging Face空间（甚至无需注册）：[https://huggingface.co/spaces/numind/NuExtract3](https://huggingface.co/spaces/numind/NuExtract3) 如果你曾使用过[NuMarkdown](https://huggingface.co/numind/NuMarkdown-8B-Thinking)，NuExtract3就是其继任者。这里有一些示例供参考。欢迎将此模型用于任何任务。 https://preview.redd.it/pm2xbooyxn2h1.png?width=1672&format=png&auto=webp&s=1a8a7b262190c8325159496dae98c3d2dfab493c https://preview.redd.it/b5z7ylfzxn2h1.png?width=1758&format=png&auto=webp&s=a07b3abd6e5065c2635de047bdf154357f903e4c [](https://preview.redd.it/nuextract3-released-open-weight-4b-vlm-for-markdown-ocr-and-v0-cdflrhrexn2h1.png?width=1672&format=png&auto=webp&s=f5590cf684a45e4cf2fcd9b1e2929cba7146634e) [](https://preview.redd.it/nuextract3-released-open-weight-4b-vlm-for-markdown-ocr-and-v0-q3dn99ufxn2h1.png?width=1758&format=png&auto=webp&s=3c987fda617d23a6e51ea69c2f3746fff1a7e2a2) 它专为以下用途设计： * 将文档图像转换为Markdown * 使用目标JSON模板从文档中提取结构化数据 * 处理表格、表单和布局密集的页面 * 同时支持文本和视觉文档输入 * 作为文档提取管道的本地/开放权重替代方案该模型在一个8xH100节点上训练了3天，尽可能充分利用上下文，因此在长文档上表现也相当不错。对于Markdown，我们仍然建议逐页处理以获得最佳效果和推理速度，因为这样可以更好地并行化。该模型非常易于自行托管，因为我们提供了相当详细的文档、Safetensors、GGUF和MLX权重。低至4GB的显存即可运行。我们提供了多种量化版本（GPTQ、W8A8、FP8、Q4、Q6...），因此你可以在任何地方运行它。我们主要测试了vLLM、SGLang和llama.cpp。我们有一篇博文和一个相当不错的模型卡片： * [https://about.nuextract.ai/blog/nuextract-3-release](https://about.nuextract.ai/blog/nuextract-3-release) * [https://huggingface.co/numind/NuExtract3](https://huggingface.co/numind/NuExtract3) * [https://huggingface.co/collections/numind/nuextract3](https://huggingface.co/collections/numind/nuextract3) 我目前正在撰写关于该模型的论文，一旦被接受就会发布。由于已提交给同行评审期刊/会议，目前尚未上传至Arxiv。如有任何问题，我会尽力回答。我们非常欢迎社区的反馈。我们还有一个Discord频道，如果你感兴趣的话：[https://discord.com/invite/3tsEtJNCDe](https://discord.com/invite/3tsEtJNCDe)

查看原文

NuExtract3发布：面向Markdown、OCR和结构化提取的开放权重4B视觉语言模型（可自行托管）[P]

相似文章

@liquidai: 推出 LFM2.5-VL-1.6B-Extract 和 LFM2.5-VL-450M-Extract：返回结构化JSON的视觉语言模型，而非…

@tom_doerr: 将图像和PDF转换为Markdown，无需OCR https://github.com/NanoNets/docext

@techNmak：1.7B 参数轻量 VLM，在 OmniDocBench 上碾压巨头的 OCR 新王者

RedHatAI/Qwen3.6-35B-A3B-NVFP4

Qwen3.7预览版登陆Arena（1分钟阅读）

提交意见反馈