SGOCR:一个空间定位的、以OCR为核心的流水线与V1数据集 [P]
摘要
大家好!我一直在独立研究和开发小巧但强大的视觉语言模型(VLM),并注意到视觉数据集中的一个空白——没有一个数据集在教我的模型简单地将文本定位到图像中,而是试图让模型推理文本或场景本身。这促使我投入两周的副项目,创建了SGOCR,一个开源数据集流水线,用于生成空间定位的、以OCR为核心的VQA元组,包含大量丰富的元数据以支持多样化的VLM训练策
大家好!我一直在独立研究和开发小巧但强大的视觉语言模型(VLM),并注意到视觉数据集中的一个空白——没有一个数据集在教我的模型简单地将文本定位到图像中,而是试图让模型推理文本或场景本身。这促使我投入两周的副项目,创建了SGOCR,一个开源数据集流水线,用于生成空间定位的、以OCR为核心的VQA元组,包含大量丰富的元数据以支持多样化的VLM训练策略。
[代码](https://github.com/cothogonal/sgocr-dataset-pipeline) [v1数据集](https://huggingface.co/datasets/dreeseaw/SGOCR)
我的开发始于本地简单提示Qwen2.5-VL,后来发展成一个多阶段的庞然大物。某一阶段,我的OCR阶段在3个文本识别模型(Parseq)之间寻找共识,锚点阶段则在GroundingDino、Florence 2和SAM 3.1之间进行同样操作,验证则需要Gemini 3.1 Pro和ChatGPT 5.3 Codex两者都通过。我发现这种情况下少即是多,最终决定使用Nvidia的nemotron-ocr-v2进行文本提取,结合Gemma4与Qwen3-VL备用进行锚点发现和标注,然后使用gemini-2.5-flash作为教师模型,并配以简单的定位检查进行验证。我之所以能使用较小的2.5 Flash教师模型,是因为上下文中提供了高度定位的注释,使Flash能够专注于语义。
在开发过程中,我首先创建了一个数据集审查前端,用于存储我个人的接受/拒绝/可能标记,这些标记之后可作为人类定位上下文参考。我将这个过程引导为一个质量分数,反映了我接受的问题方面,之后其余部分自动化的难度大大降低。我运行了一个自定义优化循环智能体,基于Karpathy的autoresearch(我发现它有点过度超参数搜索化),该智能体采用基于扫描的过程,能够更好地进行整体观察,有机会修改代码,并降低了好的想法因其评估结果略逊于其他变体而过早消亡的风险。
我正在寻找一般性反馈,并且想知道是否其他人也在寻找类似的东西,或者正在构建类似的VLM。感谢阅读!
相似文章
HyperGVL:大型视觉-语言模型在超图理解和推理中的基准测试与改进
HyperGVL 推出首个评估大型视觉-语言模型超图理解和推理能力的基准,包含 84,000 个问答样本和 12 项任务及实际应用。论文还提出了 WiseHyGR,一个可泛化的路由器,通过自适应超图表示改进 LVLM 性能。
@techNmak:1.7B 参数轻量 VLM,在 OmniDocBench 上碾压巨头的 OCR 新王者
仅 1.7B 参数的多语言文档解析器 dots.ocr,用轻量体积实现 SOTA,证明文档理解无需巨无霸模型。
使用合成数据构建快速多语言OCR模型
NVIDIA推出Nemotron OCR v2,一个使用合成数据生成技术构建的快速多语言OCR模型。该模型通过采用统一的基于FOTS的架构,在检测、识别和关系组件之间实现特征复用,在单个A100 GPU上达到34.7页/秒的性能。
PaddleOCR-VL:通过 0.9B 超紧凑视觉语言模型提升多语言文档解析能力
PaddleOCR-VL 是一个紧凑的 0.9B 视觉语言模型,通过集成 NaViT 风格的动态分辨率与 ERNIE 语言模型,在多语言文档解析和元素识别方面实现了最先进的性能。
@AdinaYakup: @Open_MOSS 发布 MOSS-VL 视觉模型:https://huggingface.co/collections/OpenMOSS-Team/moss-vl… 演示:https://hug…
Open_MOSS 开源 110 亿参数 Apache 2.0 视觉-语言模型 MOSS-VL,采用交叉注意力与 XRoPE,在 VSI-bench 上比 Qwen3-VL-8B 高 8.3 分。