NuExtract3发布:面向Markdown、OCR和结构化提取的开放权重4B视觉语言模型(可自行托管)[P]

Reddit r/MachineLearning 模型

摘要

Numind发布了NuExtract3,这是一个基于Qwen3.5-4B的4B开放权重视觉语言模型,专为将文档图像转换为Markdown、OCR和结构化数据提取而设计。该模型采用Apache-2.0许可证,可自行托管,并提供量化版本以适应低显存环境。

免责声明:本人就职于Numind,即此开放权重模型背后的公司。我们刚刚发布了一个基于Qwen3.5-4B的4B模型,采用Apache-2.0许可证。目标是通过开放模型使从复杂文档中提取信息变得更加实用:PDF、截图、表单、表格、收据、发票、多页文档以及其他视觉结构化输入。试试看,我们有一个完全免费的Hugging Face空间(甚至无需注册):[https://huggingface.co/spaces/numind/NuExtract3](https://huggingface.co/spaces/numind/NuExtract3) 如果你曾使用过[NuMarkdown](https://huggingface.co/numind/NuMarkdown-8B-Thinking),NuExtract3就是其继任者。这里有一些示例供参考。欢迎将此模型用于任何任务。 https://preview.redd.it/pm2xbooyxn2h1.png?width=1672&format=png&auto=webp&s=1a8a7b262190c8325159496dae98c3d2dfab493c https://preview.redd.it/b5z7ylfzxn2h1.png?width=1758&format=png&auto=webp&s=a07b3abd6e5065c2635de047bdf154357f903e4c [](https://preview.redd.it/nuextract3-released-open-weight-4b-vlm-for-markdown-ocr-and-v0-cdflrhrexn2h1.png?width=1672&format=png&auto=webp&s=f5590cf684a45e4cf2fcd9b1e2929cba7146634e) [](https://preview.redd.it/nuextract3-released-open-weight-4b-vlm-for-markdown-ocr-and-v0-q3dn99ufxn2h1.png?width=1758&format=png&auto=webp&s=3c987fda617d23a6e51ea69c2f3746fff1a7e2a2) 它专为以下用途设计: * 将文档图像转换为Markdown * 使用目标JSON模板从文档中提取结构化数据 * 处理表格、表单和布局密集的页面 * 同时支持文本和视觉文档输入 * 作为文档提取管道的本地/开放权重替代方案 该模型在一个8xH100节点上训练了3天,尽可能充分利用上下文,因此在长文档上表现也相当不错。对于Markdown,我们仍然建议逐页处理以获得最佳效果和推理速度,因为这样可以更好地并行化。该模型非常易于自行托管,因为我们提供了相当详细的文档、Safetensors、GGUF和MLX权重。低至4GB的显存即可运行。我们提供了多种量化版本(GPTQ、W8A8、FP8、Q4、Q6...),因此你可以在任何地方运行它。我们主要测试了vLLM、SGLang和llama.cpp。 我们有一篇博文和一个相当不错的模型卡片: * [https://about.nuextract.ai/blog/nuextract-3-release](https://about.nuextract.ai/blog/nuextract-3-release) * [https://huggingface.co/numind/NuExtract3](https://huggingface.co/numind/NuExtract3) * [https://huggingface.co/collections/numind/nuextract3](https://huggingface.co/collections/numind/nuextract3) 我目前正在撰写关于该模型的论文,一旦被接受就会发布。由于已提交给同行评审期刊/会议,目前尚未上传至Arxiv。如有任何问题,我会尽力回答。我们非常欢迎社区的反馈。我们还有一个Discord频道,如果你感兴趣的话:[https://discord.com/invite/3tsEtJNCDe](https://discord.com/invite/3tsEtJNCDe)
查看原文

相似文章

RedHatAI/Qwen3.6-35B-A3B-NVFP4

Hugging Face Models Trending

Red Hat AI 发布 NVFP4 量化的 35B MoE 版 Qwen3.6,在保持 96.28% GSM8K 精度的同时,通过 vLLM 实现 4-bit 推理。

Qwen3.7预览版登陆Arena(1分钟阅读)

TLDR AI

阿里巴巴Qwen宣布两大重要模型发布:Qwen3-Omni,首个原生端到端全模态AI,统一处理文本、图像、音频和视频;以及Qwen3-Next-80B-A3B,一款超高效MoE模型,每个token激活30亿参数,实现了SOTA性能,推理速度比Qwen3-32B快10倍。