domain-specific

标签

Cards List
#domain-specific

BAGEL:语言模型中的动物知识专业性基准评估

arXiv cs.CL · 2026-04-20 缓存

BAGEL是一个用于评估大语言模型中与动物相关知识的新基准,从多种科学资源构建,涵盖分类学、形态学、栖息地、行为和物种相互作用等方面,通过闭卷问答对形式呈现。该基准可以进行跨分类群和知识类别的细粒度分析,为生物多样性应用中的模型优势和失败模式提供洞见。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈