标签
介绍GPIC(Giant Permissive Image Corpus),一个大规模数据集,包含1亿个VLM标注的图像-文本对用于训练,以及100万个用于基准测试的对,完全许可用于研究和商业用途。
本文介绍了 EmoS,这是一个专为细粒度流式情感理解设计的高保真多模态基准,旨在解决现有数据集中存在的生态效度不足和标注可靠性低的问题。
本文介绍了SynopticBench,这是一个包含130万份以上天气预报讨论及其对应气象图像的数据集;同时提出了SPACE,一个用于评估VLM生成天气预报质量的全新评估框架。
RedBench 引入了一个通用数据集,聚合了 37 个基准数据集,包含 29,362 个样本,涵盖 22 个风险类别和 19 个领域,用于实现大型语言模型的标准化和综合红队测试评估。该工作解决了现有红队测试数据集中的不一致问题,并提供了基准、评估代码和开源资源,用于评估 LLM 对对抗提示的鲁棒性。
本文介绍了首个跨越现代标准阿拉伯语和多种方言的平行阿拉伯文化问答基准,将选择题转换为开放式问题,并利用思维链推理评估大语言模型,以解决文化知识和方言特定知识的缺陷。
本文介绍了Misviz,一个包含2,604个真实可视化和57,665个合成可视化的基准数据集,标注了12种误导性设计违规,能够自动检测欺骗性图表。该工作评估了最先进的多模态大语言模型和基于规则的系统在这一具有挑战性的任务上的表现,填补了用于训练AI模型以对抗数据可视化虚假信息的资源空白。
UsefulBench 引入了一个领域特定的基准数据集,用于区分信息检索中的文档相关性和有用性,表明基于相似度的信息检索系统混淆了这两个概念,而大语言模型可以解决这个问题但缺乏领域专业知识。
MUSCAT是一个新的多语言科学对话基准数据集,用于评估ASR系统在具有挑战性的多语言场景中的表现,包括代码混合、特定领域词汇和混合语言输入。该数据集包含使用不同语言的说话者之间关于科学论文的双语讨论,结果表明当前的最先进系统在应对这些多语言挑战时存在困难。
PIIBench 是一个用于检测多种数据源中个人可识别信息 (PII) 的统一基准语料库。该资源解决了 PII 检测任务中标准化评估的需求,这对隐私保护的自然语言处理应用至关重要。
CoLabScience介绍了一个用于生物医学研究的主动型大语言模型助手,它使用PULI(正无标签学习干预)这一新颖的强化学习框架,在科学讨论中自主进行干预,决定何时以及如何提供上下文感知的见解。该工作还包括BSDD,一个新的基准数据集,由基于PubMed文章的模拟研究对话和干预点组成。