标签
一个4B开源模型在 CharXiv 图表理解基准上击败了 Mythos 5,展示了可自由获取的小模型的强大性能。
MIT研究人员开发了ChartNet,这是一个包含超过一百万张图表的数据集,用于训练视觉语言模型更准确地解读图表。他们的开源模型在图表理解任务上表现优于规模大得多的商业模型。
HakushoBench是一个基于政府白皮书构建的日语图表和表格VQA基准,用于评估视觉语言模型对复杂视觉数据的理解能力。该基准对开源权重模型具有挑战性,最佳准确率仅为58.6%,与专有模型之间相差34.9个百分点。