SGOCR：一个空间定位的、以OCR为核心的流水线与V1数据集 [P]

Reddit r/MachineLearning 2026/04/20 03:24 工具

ocr vision-language-model dataset open-source spatial-grounding vqa fine-tuning

摘要

大家好！我一直在独立研究和开发小巧但强大的视觉语言模型（VLM），并注意到视觉数据集中的一个空白——没有一个数据集在教我的模型简单地将文本定位到图像中，而是试图让模型推理文本或场景本身。这促使我投入两周的副项目，创建了SGOCR，一个开源数据集流水线，用于生成空间定位的、以OCR为核心的VQA元组，包含大量丰富的元数据以支持多样化的VLM训练策略。 [代码](https://github.com/cothogonal/sgocr-dataset-pipeline) [v1数据集](https://huggingface.co/datasets/dreeseaw/SGOCR) 我的开发始于本地简单提示Qwen2.5-VL，后来发展成一个多阶段的庞然大物。某一阶段，我的OCR阶段在3个文本识别模型（Parseq）之间寻找共识，锚点阶段则在GroundingDino、Florence 2和SAM 3.1之间进行同样操作，验证则需要Gemini 3.1 Pro和ChatGPT 5.3 Codex两者都通过。我发现这种情况下少即是多，最终决定使用Nvidia的nemotron-ocr-v2进行文本提取，结合Gemma4与Qwen3-VL备用进行锚点发现和标注，然后使用gemini-2.5-flash作为教师模型，并配以简单的定位检查进行验证。我之所以能使用较小的2.5 Flash教师模型，是因为上下文中提供了高度定位的注释，使Flash能够专注于语义。在开发过程中，我首先创建了一个数据集审查前端，用于存储我个人的接受/拒绝/可能标记，这些标记之后可作为人类定位上下文参考。我将这个过程引导为一个质量分数，反映了我接受的问题方面，之后其余部分自动化的难度大大降低。我运行了一个自定义优化循环智能体，基于Karpathy的autoresearch（我发现它有点过度超参数搜索化），该智能体采用基于扫描的过程，能够更好地进行整体观察，有机会修改代码，并降低了好的想法因其评估结果略逊于其他变体而过早消亡的风险。我正在寻找一般性反馈，并且想知道是否其他人也在寻找类似的东西，或者正在构建类似的VLM。感谢阅读！

查看原文

SGOCR：一个空间定位的、以OCR为核心的流水线与V1数据集 [P]

相似文章

HyperGVL：大型视觉-语言模型在超图理解和推理中的基准测试与改进

@techNmak：1.7B 参数轻量 VLM，在 OmniDocBench 上碾压巨头的 OCR 新王者

使用合成数据构建快速多语言OCR模型

PaddleOCR-VL：通过 0.9B 超紧凑视觉语言模型提升多语言文档解析能力

@AdinaYakup: @Open_MOSS 发布 MOSS-VL 视觉模型：https://huggingface.co/collections/OpenMOSS-Team/moss-vl… 演示：https://hug…

提交意见反馈