SGOCR:一个空间定位的、以OCR为核心的流水线与V1数据集 [P]
摘要
大家好!我一直在独立研究和开发小巧但强大的视觉语言模型(VLM),并注意到视觉数据集中的一个空白——没有一个数据集在教我的模型简单地将文本定位到图像中,而是试图让模型推理文本或场景本身。这促使我投入两周的副项目,创建了SGOCR,一个开源数据集流水线,用于生成空间定位的、以OCR为核心的VQA元组,包含大量丰富的元数据以支持多样化的VLM训练策
大家好!我一直在独立研究和开发小巧但强大的视觉语言模型(VLM),并注意到视觉数据集中的一个空白——没有一个数据集在教我的模型简单地将文本定位到图像中,而是试图让模型推理文本或场景本身。这促使我投入两周的副项目,创建了SGOCR,一个开源数据集流水线,用于生成空间定位的、以OCR为核心的VQA元组,包含大量丰富的元数据以支持多样化的VLM训练策略。
[代码](https://github.com/cothogonal/sgocr-dataset-pipeline) [v1数据集](https://huggingface.co/datasets/dreeseaw/SGOCR)
我的开发始于本地简单提示Qwen2.5-VL,后来发展成一个多阶段的庞然大物。某一阶段,我的OCR阶段在3个文本识别模型(Parseq)之间寻找共识,锚点阶段则在GroundingDino、Florence 2和SAM 3.1之间进行同样操作,验证则需要Gemini 3.1 Pro和ChatGPT 5.3 Codex两者都通过。我发现这种情况下少即是多,最终决定使用Nvidia的nemotron-ocr-v2进行文本提取,结合Gemma4与Qwen3-VL备用进行锚点发现和标注,然后使用gemini-2.5-flash作为教师模型,并配以简单的定位检查进行验证。我之所以能使用较小的2.5 Flash教师模型,是因为上下文中提供了高度定位的注释,使Flash能够专注于语义。
在开发过程中,我首先创建了一个数据集审查前端,用于存储我个人的接受/拒绝/可能标记,这些标记之后可作为人类定位上下文参考。我将这个过程引导为一个质量分数,反映了我接受的问题方面,之后其余部分自动化的难度大大降低。我运行了一个自定义优化循环智能体,基于Karpathy的autoresearch(我发现它有点过度超参数搜索化),该智能体采用基于扫描的过程,能够更好地进行整体观察,有机会修改代码,并降低了好的想法因其评估结果略逊于其他变体而过早消亡的风险。
我正在寻找一般性反馈,并且想知道是否其他人也在寻找类似的东西,或者正在构建类似的VLM。感谢阅读!
相似文章
超越3D VQA:将3D空间先验注入视觉语言模型以增强几何推理
本文提出GASP框架,通过深度监督结合对比损失和深度一致性损失将几何先验注入视觉语言模型,在3D空间推理基准上取得了显著提升,且无需使用3D VQA数据。
面向一对多时序定位
本文介绍了一对多时序定位(OMTG)这一新任务,用于从单个文本查询中定位多个不连续的视频片段,同时提供了基准、评估指标、包含56k样本的数据集以及新颖的奖励函数,取得了最新最优的结果,优于Gemini 2.5 Pro和Seed-1.8。
HyperGVL:大型视觉-语言模型在超图理解和推理中的基准测试与改进
HyperGVL 推出首个评估大型视觉-语言模型超图理解和推理能力的基准,包含 84,000 个问答样本和 12 项任务及实际应用。论文还提出了 WiseHyGR,一个可泛化的路由器,通过自适应超图表示改进 LVLM 性能。
@techNmak:1.7B 参数轻量 VLM,在 OmniDocBench 上碾压巨头的 OCR 新王者
仅 1.7B 参数的多语言文档解析器 dots.ocr,用轻量体积实现 SOTA,证明文档理解无需巨无霸模型。
@drfeifei: 我非常兴奋于这个适用于大规模生成模型新时代的视觉生成新基准数据集…
介绍GPIC(Giant Permissive Image Corpus),一个大规模数据集,包含1亿个VLM标注的图像-文本对用于训练,以及100万个用于基准测试的对,完全许可用于研究和商业用途。