PlantMarkerBench:一个基于证据的植物标记基因推理多物种基准测试

Hugging Face Daily Papers 论文

摘要

本文介绍了 PlantMarkerBench,这是一个多物种基准测试,旨在评估语言模型从四个物种的科学文献中解读植物标记基因证据的能力。文章指出,尽管前沿模型在处理直接证据方面表现良好,但在处理功能和间接证据类型时仍面临困难。

细胞类型特异性标记基因是植物生物学的基础,然而现有的资源主要依赖于人工整理的数据库或高通量研究,而未明确对科学文献中存在的支撑证据进行建模。我们提出了 PlantMarkerBench,这是一个多物种基准测试,用于评估从全文生物学论文中解读基于文献的植物标记证据的能力。PlantMarkerBench 是通过一个模块化的人工整理流程构建的,该流程集成了大规模文献检索、混合搜索、物种感知的生物学定位、结构化证据提取以及针对性的人工审查。该基准测试涵盖了四种植物物种——拟南芥、玉米、水稻和番茄——并包含 5,550 个句子级别的证据实例,这些实例针对标记证据的有效性、证据类型和支持强度进行了注释。我们定义了两个基准任务:确定候选句子是否为基因-细胞类型对提供有效的标记证据,以及将证据分类为表达、定位、功能、间接或否定类别。我们在不同的物种和提示策略下对多种开放权重和闭源语言模型进行了基准测试。尽管前沿模型在处理直接表达证据方面取得了相对较强的性能,但在处理功能、间接和弱支持证据时性能大幅下降,证据类型混淆成为主要的失败模式。开放权重模型在模糊的生物学背景下还表现出较高的假阳性率。PlantMarkerBench 为基于文献的生物学证据归因提供了一个具有挑战性且可重复的评估框架,并支持未来关于可信科学信息提取和人工智能辅助植物生物学的研究。
查看原文
查看缓存全文

缓存时间: 2026/05/13 00:20

论文页面 - PlantMarkerBench:面向证据支撑的植物标记物推理的多物种基准

来源:https://huggingface.co/papers/2605.10032

摘要

PlantMarkerBench 提出了一个多物种基准,用于评估基于文献的植物标记物证据解读,评估模型在四个植物物种中识别有效标记物证据和分类证据类型的能力。

细胞类型特异性标记基因是植物生物学的基础,然而现有资源主要依赖于整理过的数据库或高通量研究,而没有明确地对科学文献中发现的支持性证据进行建模。我们引入了 PlantMarkerBench,一个多物种基准,用于评估基于全文生物学论文的文献支撑植物标记物证据解读。PlantMarkerBench 是通过一个模块化整理流程构建的,集成了大规模文献检索、混合搜索 (https://huggingface.co/papers?q=hybrid%20search)、物种感知的生物学 grounding (https://huggingface.co/papers?q=biological%20grounding)、结构化证据提取 (https://huggingface.co/papers?q=structured%20evidence%20extraction) 和目标性人工审查。该基准涵盖四个植物物种——拟南芥、玉米、水稻和番茄——包含 5,550 个句子级证据实例 (https://huggingface.co/papers?q=sentence-level%20evidence%20instances),标注了标记物-证据有效性 (https://huggingface.co/papers?q=marker-evidence%20validity)、证据类型和支持强度。我们定义了两个基准任务:判断候选句子是否为基因-细胞类型对提供有效的标记物证据,以及将证据分类为表达、定位、功能、间接或负向类别。我们在跨物种和提示策略 (https://huggingface.co/papers?q=prompting%20strategies) 上对多种开放权重和闭源语言模型 (https://huggingface.co/papers?q=closed-source%20language%20models) 进行了基准测试。尽管前沿模型在直接表达证据上取得了相对较强的表现,但在功能性、间接性和弱支持证据上的性能大幅下降,证据类型混淆成为主要的失败模式。开放权重模型 (https://huggingface.co/papers?q=Open-weight%20models) 在模糊的生物背景下还表现出较高的假阳性率 (https://huggingface.co/papers?q=false-positive%20rates)。PlantMarkerBench 提供了一个具有挑战性且可重现的评估框架,用于文献支撑的生物学证据 (https://huggingface.co/papers?q=literature-grounded%20biological%20evidence) 归属,并支持未来关于可信科学信息提取和 AI 辅助植物生物学的研究。

查看 arXiv 页面 (https://arxiv.org/abs/2605.10032) 查看 PDF (https://arxiv.org/pdf/2605.10032) 项目页面 (https://huggingface.co/datasets/Sajib-006/PlantMarkerBench) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.10032)

在您的 agent 中获取此论文:

hf papers read 2605\.10032

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.10032 以从该页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.10032 以从该页面链接。

引用此论文的 Spaces0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.10032 以从该页面链接。

包含此论文的集合0

没有集合包含此论文

将此论文添加到集合 (https://huggingface.co/new-collection) 以从该页面链接。

相似文章

BAGEL:语言模型中的动物知识专业性基准评估

arXiv cs.CL

BAGEL是一个用于评估大语言模型中与动物相关知识的新基准,从多种科学资源构建,涵盖分类学、形态学、栖息地、行为和物种相互作用等方面,通过闭卷问答对形式呈现。该基准可以进行跨分类群和知识类别的细粒度分析,为生物多样性应用中的模型优势和失败模式提供洞见。

部分证据基准:对智能体系统中授权受限证据的评估

arXiv cs.AI

本文提出了 Partial-Evidence-Bench,这是一个用于衡量智能体 AI 系统中“授权受限证据”失败模式的确定性基准测试。它评估模型在处理访问控制限制可见性的任务时的表现,重点考察其识别并报告信息不完整的能力,而非悄无声息地生成看似完整实则遗漏关键信息的回答。

VLegal-Bench: 越南法律推理认知基础基准测试

arXiv cs.CL

VLegal-Bench 是一个认知基础基准测试,用于评估大语言模型在越南法律推理任务中的表现,包含 10,450 个专家标注样本,旨在填补民法系统法律基准的空白。该基准通过问答、多步推理和场景问题解决来评估多个层次的法律理解,为在非英文、成文法律背景下评估大语言模型提供了一个可复现的框架。