@mervenoyann:这条管线的第二天发现 > 它有效,在道路标志检测中针对人工标注得到了 map@50=0.8028,使用了……
摘要
Merve (@mervenoyann) 分享了使用多个小型 VLM 作为评判器的管线的第二天发现,在道路标志检测中仅用 1.3k 样本就达到了 map@50=0.8028。这条推文比较了模型拒绝率,讨论了数据集缩小、超具体提示以及泛化该库的计划。
查看缓存全文
缓存时间: 2026/06/18 06:09
关于此管线的第二天发现
它能正常工作,在道路标志检测任务上,仅用 1.3k 样本,针对人工标注就达到了 map@50=0.8028,结果如下所示
Liquid 拒绝的数量远多于 Gemma-4(在硬文档解析中 530 vs 306,在简单道路标志检测中 1022 vs 116),说实话它更小,在我进行人工抽查时也更容易产生幻觉 在某些情况下(见下方文档媒体解析示例),训练后的 RF-DETR 性能甚至超过了它训练时所使用的 Qwen 标注,这非常酷;有时裁判会引入边界框(而我没有移除它们),这算是赢了吗? 使用多个 VLM 作为裁判会根据问题的难度缩小你的数据集,有时仅从一个裁判那里获取一个“正确”标注就足够了。由于你在训练小型模型,最好分别启动“一致性共识”和“单一正确判定”两种训练方案
在标注和评判时,使用超级具体的提示词明确你想要和不想要的内容,特别是当你的标签词可能有多重含义时
下一步计划:让这个库更精简,以更好地泛化到不同问题;在分割任务上再试一次;实际使用 Gemma 进行编排
我所有的成果都在这里 https://huggingface.co/collections/merve/vision-intern… 包括标注数据集、评判数据集、训练模型、管线各部分等
还要感谢 @huggingface infra,我大量使用了 Buckets、Jobs、Dataset Viewer 等功能
@DataScienceHarp @skalskip92 @maximelabonne 你们可能对此感兴趣 ^
相似文章
CaVe-VLM-CoT:一个可解释的视觉-语言模型框架
CaVe-VLM-CoT是一个基于模块化反思的智能体RAG框架,专为视觉-语言模型设计,通过五阶段流水线强制执行基于证据的推理,在ScienceQA上达到87.1%的准确率,并提出了一套包含23项指标的评估体系。
Robusto-2:在利马和纽约市对人与VLMs进行自动驾驶基准测试
本文研究了自动驾驶系统与人类在不同地理位置(利马和纽约市)的视觉问答任务中的表现,发现人类和VLM无论地点如何都表现出相似的性能,但根据问题类型存在差异。
封闭-开放工业检测场景的统一:新的大规模基准、挑战与基线
介绍了MMIOC-1M,一个用于工业缺陷检测的大规模多模态基准,并提出了RTVPNet,一种精细的文本-视觉提示网络,实现了最先进的性能。
MechVQA: 在全面机械图纸理解中对多模态LLM进行基准测试与增强
本文介绍了MechVQA,一个包含3.3k高密度机械工程图纸和21k问答对的数据集,以及MechVL模型,该模型在MechVQA总分上优于现有基线7.57个百分点,推动了多模态LLM对机械图纸的理解。
@a1zhang: RLM arXiv 论文更新:depth>1 的结果、更多比较、更多训练和更多错误分析!我们增加了 depth=2/3 的实验…
此次RLM arXiv论文更新增加了使用递归RLM调用的depth>1实验,在OOLONG-Pairs和其他基准测试中显示出显著的性能提升,同时还增加了与OpenCode和Claude Code的新比较、在MRCRv2上的额外训练结果,以及扩展的错误分析。