BAGEL:语言模型中的动物知识专业性基准评估
摘要
BAGEL是一个用于评估大语言模型中与动物相关知识的新基准,从多种科学资源构建,涵盖分类学、形态学、栖息地、行为和物种相互作用等方面,通过闭卷问答对形式呈现。该基准可以进行跨分类群和知识类别的细粒度分析,为生物多样性应用中的模型优势和失败模式提供洞见。
arXiv:2604.16241v1 公告类型:新文章
**摘要:**
大语言模型在广泛领域知识和推理基准上展现了强大的性能,但在统一闭卷评估协议下,语言模型对专业动物相关知识的处理能力仍不明确。我们引入BAGEL,一个用于评估语言模型中动物知识专业性的基准。BAGEL由多种科学和参考资源构建,包括bioRxiv、Global Biotic Interactions、Xeno-canto和维基百科,采用精选示例和自动生成的闭卷问答对相结合的方法。该基准涵盖动物知识的多个方面,包括分类学、形态学、栖息地、行为、鸣叫、地理分布和物种相互作用。通过关注闭卷评估,BAGEL测量模型对动物相关知识的理解,无需在推理时进行外部检索。BAGEL进一步支持在源领域、分类群和知识类别间的细粒度分析,使得能够更精确地刻画模型优势和系统性失败模式。我们的基准为研究语言模型中特定领域知识泛化和提高其在生物多样性相关应用中的可靠性提供了新的测试平台。
查看缓存全文
缓存时间: 2026/04/20 08:30
# BAGEL:语言模型动物知识专业性基准测试 来源:https://arxiv.org/html/2604.16241 ![[Uncaptioned image]](https://arxiv.org/html/2604.16241v1/logos/logo_nyu.png)![[Uncaptioned image]](https://arxiv.org/html/2604.16241v1/logos/logo_NYUSH.png) Masato Hagiwara1†Milad Alizadeh1Ellen Gilsenan‐McMahon1Marius Miron1David Robinson1Emmanuel Chemla1Sara Keen1Gagan Narula1Mathieu Laurière3‡Matthieu Geist1‡Olivier Pietquin1‡ ###### 摘要 大型语言模型(LLMs)在广泛领域的知识和推理基准上表现出色,但在统一的闭卷评估协议下,语言模型处理专业动物相关知识的能力仍不清楚。我们引入BAGEL,一个用于评估**A**nimal知识**Ge**xpertise在**L**anguage模型中的基准测试。BAGEL由多个科学和参考资源构建而成,包括bioRxiv、Global Biotic Interactions、Xeno-canto和Wikipedia,采用精心策划的示例和自动生成的闭卷问答对的组合。该基准涵盖动物知识的多个方面,包括分类学、形态学、栖息地、行为、叫声、地理分布和物种相互作用。通过专注于闭卷评估,BAGEL测量模型在推理时不使用外部检索的动物相关知识。BAGEL还支持跨源域、分类群和知识类别的细粒度分析,能够更精确地刻画模型的优势和系统性失败模式。我们的基准为研究语言模型中的领域特定知识泛化提供了新的测试平台,并有助于提高其在生物多样性相关应用中的可靠性。 $†$†脚注:这些作者对本工作的贡献相等$‡$‡脚注:共同指导作者 ## 1 引言 指令调优型LLMs和聊天风格助手在广泛的知识和推理任务上迅速改进[ouyang2022instructgpt,openai2023gpt4],在MMLU[hendrycks2021mmlu]等广泛领域评估和ScienceQA[lu2022learn]等面向科学的基准上表现出色。这些进展激发了人们对使用LLMs作为科学信息访问、合成和问答的通用界面的兴趣。然而,在广泛基准上的强大综合表现本身并不能确定模型是否能够可靠地编码关于自然界的专业长尾知识,尤其是在回答需要物种级事实、生态关系或自然历史推理的问题时。这一差距变得越来越重要,因为语言和基础模型已经开始被探索用于生物多样性和动物相关应用。在生态学领域,最近的研究使用LLMs从科学文献中提取结构化的生态信息,包括宿主-病原体记录和大规模物种相互作用[gougherty2024ecological,keck2025massive],并开始直接测试生态学知识,发现在不同生态学任务中表现参差不齐[dorm2025ecologicalknowledge]。在动物通信和生物声学领域,先前的工作引入了几个重要资源,包括BEANS,一个涵盖广泛动物声音任务的基准[hagiwara2022beans];ISPA,一个用于动物声音转录的类文本方案[hagiwara2024ispa];以及NatureLM-audio,一个基于纯文本LLMs(Llama)为生物声学构建的音频-语言基础模型[robinson2024naturelmaudio]。更广泛地说,生物多样性聚焦的基础模型也出现在其他模态中,如BioCLIP用于生命之树中的细粒度识别[stevens2024bioclip]。尽管势头强劲,大多数先前的工作强调信息提取、音频理解或视觉识别,而不是评估纯文本LLMs是否能够回答关于动物的闭卷问题。因此,当前语言模型在分类学、形态学、行为、栖息地、叫声、地理分布和物种相互作用等对动物专业知识至关重要的异构知识形式中的泛化能力仍然不清楚。为了解决这一空白,我们引入BAGEL,一个用于在语言模型中进行**Benchmark**闭卷**A**nimal知识**Ge**xpertise**L**评估的基准。111数据集发布:https://huggingface.co/datasets/EarthSpeciesProject/BAGEL。 BAGEL汇总了来自四个互补来源的11,852个多选题:Wikipedia、Global Biotic Interactions(GloBI)[poelen2014globi]、bioRxiv和Xeno-canto[vellinga2015xenocanto]。它们共同针对四项动物中心技能——关于动物的百科知识(Wikipedia)、生态相互作用推理(GloBI)、关于动物的科学文献推理(bioRxiv)以及关于动物叫声的纯文本生物声学领域知识(Xeno-canto)。根据设计,BAGEL不仅测试总体准确性,还测试跨源域和源特定维度的鲁棒性,提供了对当前模型关于动物和自然历史所知和不知的更细粒度的视角。 表1:代表性邻近基准及BAGEL最明显的差异之处。行仅为说明性而非详尽的;描述已根据主要论文/官方基准描述进行检查。 ## 2 相关工作 ##### 用于生物多样性和动物相关应用的LLMs和基础模型 语言和基础模型在生物多样性相关环境中的使用正在迅速增长,但文献仍在应用领域和模态之间分散。在生态学中,LLMs已被探索为从文本中提取结构化知识的工具,包括从疾病报告中提取生态变量[gougherty2024ecological]和从大型科学语料库中提取物种相互作用[keck2025massive]。最近的评估工作也开始直接探测通用LLMs是否拥有生态学知识,报告了相对强大的事实或分类学回忆与较弱的生态学推理或保护导向判断之间的实质性差距[dorm2025ecologicalknowledge]。与此同时,动物中心的基础模型工作在生物声学领域扩展:BEANS建立了涵盖多种动物声音任务的公共基准[hagiwara2022beans];ISPA提出了用于转录动物声音并将其连接到语言模型风格方法的基于文本的表示[hagiwara2024ispa];NatureLM-audio引入了专为生物声学定制的音频-语言基础模型,在分类群和任务之间具有强大的零样本泛化能力[robinson2024naturelmaudio]。除了文本和音频外,BioCLIP表明生物多样性特定的基础模型可以大幅改进广泛分类范围内的细粒度识别[stevens2024bioclip]。相邻的地球科学领域同样转向专业语言模型,包括K2用于地球科学和OceanGPT用于海洋科学[deng2023k2,bi2023oceangpt]。这些研究共同显示了朝向自然和环保数据AI系统专业化的明确动力,但它们没有直接评估纯文本LLMs中的闭卷动物知识。 ##### 通用知识和科学基准 大型语言模型通常使用广泛知识基准进行评估,如MMLU[hendrycks2021mmlu],用于衡量跨许多学术科目的多任务表现。在面向科学的评估中,ScienceQA[lu2022learn]提供了一个大型科学问题基准,带有相关解释和多模态上下文。这些基准对于衡量通用科学能力很有价值,但它们不能特别针对动物、生物多样性或自然历史的细粒度知识。 ##### 生物医学和科学问答基准 另一系列工作研究生物医学和科学问答中的领域特定评估。BLURB[gu2021domain]将多个生物医学NLP任务聚合为统一基准,而PubMedQA[jin2019pubmedqa]专注于对生物医学研究摘要的问答。BioASQ[nentidis2023bioasq]也建立了以大规模生物医学语义索引和问答为中心的长期共享任务。这些资源证明了领域特定评估的价值,但它们主要关注生物医学或临床知识而不是生物多样性和自然历史。 ##### 环境和生态学基准 最近,几个基准更接近环境和生态学应用。EnviroExam[huang2024enviroexam]使用基于课程的问题评估大型语言模型的环境科学知识,ELLE[guo2025elle]为生态环境应用提出了QA基准。生态学知识评估方面的工作也开始出现,最近的证据表明强大的通用LLMs只保留部分和任务相关的生态学能力[dorm2025ecologicalknowledge]。这些努力是重要的相邻步骤,但它们强调广泛的环保科学、生态学或可持续性主题,而不是动物中心的专业知识。相比之下,BAGEL在一个协议下突出动物中心评估:百科物种事实(Wikipedia)、分类群之间的生态相互作用(GloBI)、动物相关科学文献推理(bioRxiv)和生物声学领域文本知识(Xeno-canto),准确度按源报告。 ##### 我们的贡献 BAGEL通过专注于一个不同但未被充分探索的评估轴来补充先前工作:关于动物和自然历史的闭卷问答,由异构生物多样性相关源基础化。BAGEL不是单独测试通用学术知识或生物医学推理,而是设计用于衡量语言模型跨多个源域处理物种级知识、生态关系和动物聚焦事实泛化的能力。表1(https://arxiv.org/html/2604.16241#S1.T1)用代表性邻居使对比具体化。 请参考图片第1图:BAGEL基准策划管道概述:四个源特定的准备轨道将域提示输入共享生成器,然后进行质量检查、四选项格式化和选项顺序随机化。 ## 3 基准构建 图1(https://arxiv.org/html/2604.16241#S2.F1)总结了端到端的策划工作流程;下面的小节描述了每个源域。四个语料库并非旨在耗尽现实世界自然历史能力;它们是公共的、机器可访问的锚点,覆盖互补的动物中心技能:关于动物的百科知识、分类群之间的生态相互作用推理、关于动物聚焦预印本的科学文献推理,以及从动物录音中衍生的纯文本生物声学知识。 ### 3.1 Wikipedia Wikipedia子集针对*关于动物的百科知识*:英文Wikipedia物种文章提供证据,每个项目探测闭卷回忆读者通常会从此类文章中获得的分类群特定事实,在测试时无权访问该文章。222门户https://www.wikipedia.org/;分类群通过Wikidata链接,文章纯文本提取通过MediaWiki API检索。 文章检索。对于每个候选分类群,结构化元数据(科学名称和更高级分类)用于通过Wikidata解决英文文章标题(将分类群名称链接到项目并读取其英文Wikipedia站点链接),之后通过MediaWiki API检索文章纯文本提取。包含缺失文本或提取少于1,000字符的页面被排除,以便存根和信息不足的文章不主导基准。 文本准备。超过180,000字符的提取在生成前被截断,优先选择段落或句子边界切割,以便保留的前缀保持连贯。这个上限使提示符保持在生成模型的实际上下文窗口限制内。除了这个上限,不对文章文本执行额外的手动编辑。 问题合成。问题通过GPT-4o-mini API使用附录A.1.1(https://arxiv.org/html/2604.16241#A1.SS1.SSS1)中的系统-用户模板生成。该模型每个物种可能会发出最多八个四选项、单答案项,每个分配给八个主题维度之一:**分类学**;**行为**(包括适用的社会行为);**通信**;**形态学**;**栖息地**;**认知**;**地理分布**;和**饮食**。每个项目必须仅由提供提取中的显式陈述来证实;文本不支持的维度被跳过。当文章提及叫声、地理范围或捕食时,提示鼓励至少在**通信**、**地理分布**或**饮食**中各有一个项目。解析的输出仅在通过简单结构检查时保留(有效的维度标签、恰好四个选项,以及与一个选项字符串完全匹配的指定正确选项)。在评估时,模型只看到问题干和答案选择;文章文本和构建元数据被隐瞒,这与第4节中的闭卷协议一致(https://arxiv.org/html/2604.16241#S4)。 ### 3.2 Global Biotic Interactions(GloBI) GloBI子集针对物种之间的生态相互作用推理。Global Biotic Interactions交换格式中的表格记录描述源分类群和目标分类群之间的有向链接,以及相互作用类型标签和可选的位置、坐标、观察时间、生活阶段或身体部分字段、栖息地和书目溯源。333GloBI门户和索引相互作用数据:https://www.globalbioticinteractions.org/。 预处理。我们从记录表中读取最多10,000行并在通用GloBI导出约定之间协调列名。没有两个端点分类群和相互作用类型标签的行被排除。每个保留的行被转换为相互作用的简短自然语言摘要以及可选的位置、日期和坐标元数据,加上数据集和参考级溯源。 平衡子采样。从注释池中我们选择3,500个相互作用,按相互作用类型分层,以便关系标签的经验分布比均匀行随机采样更均匀。在每种类型内,具有更丰富上下文元数据(位置、坐标、日期)的行在并列时优先选择,使用固定的随机种子以确保可重复性;最终子集在问题合成前被随机化。 多选合成。对于每个选定的相互作用,我们通过OpenAI API用GPT-4o-mini提示,自然语言相互作用摘要作为唯一的文本证据。指令格式在附录A.1.1(https://arxiv.org/html/2604.16241#A1.SS1.SSS1)中给出。模型必须输出恰好一个闭卷、四选项项,标记为**掩盖参与者识别**或**掩盖相互作用类型推理**之一,遵守阻止平凡动词提示并鼓励生态学上合理的干扰项的约束。格式不正确或无法解析的输出被丢弃。 ### 3.3 bioRxiv bioRxiv子集针对*关于动物的科学文献推理*。我们直接从公共bioRxiv网站444bioRxiv服务器:https://www.biorxiv.org/。使用其月份索引高级搜索界面收获动物相关文章,仅限于2023年及以后发布的文章以及四个主题领域:动物行为和认知、生态学、进化生物学
相似文章
评估大语言模型在社交媒体分析中的能力:多任务探索
犹他州立大学和范德堡大学的研究人员对GPT-4、Gemini 1.5 Pro、DeepSeek-V3、Llama 3.2与BERT在三大社交媒体任务——作者身份验证、帖子生成与用户属性推断——进行了基准测试,引入新的采样方案与分类体系以减少偏差,打造可复现的评测基准。
FACTS基准测试套件:系统性评估大语言模型的事实性
Google DeepMind与Kaggle联合推出了FACTS基准测试套件,这是一套涵盖参数化知识、检索增强、多模态和 grounding 的综合评估体系,用于系统性衡量大语言模型的事实性。
RedBench:大型语言模型综合红队测试通用数据集
RedBench 引入了一个通用数据集,聚合了 37 个基准数据集,包含 29,362 个样本,涵盖 22 个风险类别和 19 个领域,用于实现大型语言模型的标准化和综合红队测试评估。该工作解决了现有红队测试数据集中的不一致问题,并提供了基准、评估代码和开源资源,用于评估 LLM 对对抗提示的鲁棒性。
重探语义处理的痛点:语言模型的语义推理基准测试
研究人员推出了 SemanticQA 基准测试,旨在评估语言模型在包含习语、名词复合词及动词结构等语义短语处理任务上的表现。结果显示,不同架构与规模的模型在语义推理任务上的性能存在显著差异。
KoALa-Bench:评估大型音频语言模型在韩语语音理解与忠实度上的表现
KoALa-Bench 推出了一套聚焦韩语的基准测试,从六个维度评估大型音频语言模型,包括全新的语音忠实度指标与韩国本土文化内容。