benchmark-dataset

#benchmark-dataset

@drfeifei: 我非常兴奋于这个适用于大规模生成模型新时代的视觉生成新基准数据集…

X AI KOLs Following ↗ · 2026-05-29 缓存

介绍GPIC（Giant Permissive Image Corpus），一个大规模数据集，包含1亿个VLM标注的图像-文本对用于训练，以及100万个用于基准测试的对，完全许可用于研究和商业用途。

0 人收藏 0 人点赞

#benchmark-dataset

EmoS：面向细粒度流式情感理解的高保真多模态基准

arXiv cs.CL ↗ · 2026-05-12 缓存

本文介绍了 EmoS，这是一个专为细粒度流式情感理解设计的高保真多模态基准，旨在解决现有数据集中存在的生态效度不足和标注可靠性低的问题。

0 人收藏 0 人点赞

#benchmark-dataset

SynopticBench：评估视觉语言模型生成未来天气预报讨论的能力

arXiv cs.CL ↗ · 2026-04-21 缓存

本文介绍了SynopticBench，这是一个包含130万份以上天气预报讨论及其对应气象图像的数据集；同时提出了SPACE，一个用于评估VLM生成天气预报质量的全新评估框架。

0 人收藏 0 人点赞

#benchmark-dataset

RedBench：大型语言模型综合红队测试通用数据集

arXiv cs.CL ↗ · 2026-04-20 缓存

RedBench 引入了一个通用数据集，聚合了 37 个基准数据集，包含 29,362 个样本，涵盖 22 个风险类别和 19 个领域，用于实现大型语言模型的标准化和综合红队测试评估。该工作解决了现有红队测试数据集中的不一致问题，并提供了基准、评估代码和开源资源，用于评估 LLM 对对抗提示的鲁棒性。

0 人收藏 0 人点赞

#benchmark-dataset

超越选择题：带有方言变体的开放式阿拉伯文化问答基准

arXiv cs.CL ↗ · 2026-04-20 缓存

本文介绍了首个跨越现代标准阿拉伯语和多种方言的平行阿拉伯文化问答基准，将选择题转换为开放式问题，并利用思维链推理评估大语言模型，以解决文化知识和方言特定知识的缺陷。

0 人收藏 0 人点赞

#benchmark-dataset

这个图表在骗我吗？误导性可视化的自动检测

arXiv cs.CL ↗ · 2026-04-20 缓存

本文介绍了Misviz，一个包含2,604个真实可视化和57,665个合成可视化的基准数据集，标注了12种误导性设计违规，能够自动检测欺骗性图表。该工作评估了最先进的多模态大语言模型和基于规则的系统在这一具有挑战性的任务上的表现，填补了用于训练AI模型以对抗数据可视化虚假信息的资源空白。

0 人收藏 0 人点赞

#benchmark-dataset

UsefulBench：以决策有用信息为目标的信息检索

arXiv cs.CL ↗ · 2026-04-20 缓存

UsefulBench 引入了一个领域特定的基准数据集，用于区分信息检索中的文档相关性和有用性，表明基于相似度的信息检索系统混淆了这两个概念，而大语言模型可以解决这个问题但缺乏领域专业知识。

0 人收藏 0 人点赞

#benchmark-dataset

MUSCAT：多语言科学对话基准

arXiv cs.CL ↗ · 2026-04-20 缓存

MUSCAT是一个新的多语言科学对话基准数据集，用于评估ASR系统在具有挑战性的多语言场景中的表现，包括代码混合、特定领域词汇和混合语言输入。该数据集包含使用不同语言的说话者之间关于科学论文的双语讨论，结果表明当前的最先进系统在应对这些多语言挑战时存在困难。

0 人收藏 0 人点赞

#benchmark-dataset

PIIBench：个人可识别信息检测的统一多源基准语料库

arXiv cs.CL ↗ · 2026-04-20 缓存

PIIBench 是一个用于检测多种数据源中个人可识别信息 (PII) 的统一基准语料库。该资源解决了 PII 检测任务中标准化评估的需求，这对隐私保护的自然语言处理应用至关重要。

0 人收藏 0 人点赞

#benchmark-dataset

"Excuse me, may I say something..." CoLabScience，一个用于生物医学发现和大语言模型-专家协作的主动型AI助手

arXiv cs.CL ↗ · 2026-04-20 缓存

CoLabScience介绍了一个用于生物医学研究的主动型大语言模型助手，它使用PULI（正无标签学习干预）这一新颖的强化学习框架，在科学讨论中自主进行干预，决定何时以及如何提供上下文感知的见解。该工作还包括BSDD，一个新的基准数据集，由基于PubMed文章的模拟研究对话和干预点组成。

0 人收藏 0 人点赞

benchmark-dataset

提交意见反馈