PlantMarkerBench：一个基于证据的植物标记基因推理多物种基准测试

Hugging Face Daily Papers 2026/05/11 00:00 论文

摘要

本文介绍了 PlantMarkerBench，这是一个多物种基准测试，旨在评估语言模型从四个物种的科学文献中解读植物标记基因证据的能力。文章指出，尽管前沿模型在处理直接证据方面表现良好，但在处理功能和间接证据类型时仍面临困难。

细胞类型特异性标记基因是植物生物学的基础，然而现有的资源主要依赖于人工整理的数据库或高通量研究，而未明确对科学文献中存在的支撑证据进行建模。我们提出了 PlantMarkerBench，这是一个多物种基准测试，用于评估从全文生物学论文中解读基于文献的植物标记证据的能力。PlantMarkerBench 是通过一个模块化的人工整理流程构建的，该流程集成了大规模文献检索、混合搜索、物种感知的生物学定位、结构化证据提取以及针对性的人工审查。该基准测试涵盖了四种植物物种——拟南芥、玉米、水稻和番茄——并包含 5,550 个句子级别的证据实例，这些实例针对标记证据的有效性、证据类型和支持强度进行了注释。我们定义了两个基准任务：确定候选句子是否为基因-细胞类型对提供有效的标记证据，以及将证据分类为表达、定位、功能、间接或否定类别。我们在不同的物种和提示策略下对多种开放权重和闭源语言模型进行了基准测试。尽管前沿模型在处理直接表达证据方面取得了相对较强的性能，但在处理功能、间接和弱支持证据时性能大幅下降，证据类型混淆成为主要的失败模式。开放权重模型在模糊的生物学背景下还表现出较高的假阳性率。PlantMarkerBench 为基于文献的生物学证据归因提供了一个具有挑战性且可重复的评估框架，并支持未来关于可信科学信息提取和人工智能辅助植物生物学的研究。

查看原文

查看缓存全文

缓存时间: 2026/05/13 00:20

论文页面 - PlantMarkerBench：面向证据支撑的植物标记物推理的多物种基准

来源：https://huggingface.co/papers/2605.10032

摘要

PlantMarkerBench 提出了一个多物种基准，用于评估基于文献的植物标记物证据解读，评估模型在四个植物物种中识别有效标记物证据和分类证据类型的能力。

细胞类型特异性标记基因是植物生物学的基础，然而现有资源主要依赖于整理过的数据库或高通量研究，而没有明确地对科学文献中发现的支持性证据进行建模。我们引入了 PlantMarkerBench，一个多物种基准，用于评估基于全文生物学论文的文献支撑植物标记物证据解读。PlantMarkerBench 是通过一个模块化整理流程构建的，集成了大规模文献检索、混合搜索 (https://huggingface.co/papers?q=hybrid%20search)、物种感知的生物学 grounding (https://huggingface.co/papers?q=biological%20grounding)、结构化证据提取 (https://huggingface.co/papers?q=structured%20evidence%20extraction) 和目标性人工审查。该基准涵盖四个植物物种——拟南芥、玉米、水稻和番茄——包含 5,550 个句子级证据实例 (https://huggingface.co/papers?q=sentence-level%20evidence%20instances)，标注了标记物-证据有效性 (https://huggingface.co/papers?q=marker-evidence%20validity)、证据类型和支持强度。我们定义了两个基准任务：判断候选句子是否为基因-细胞类型对提供有效的标记物证据，以及将证据分类为表达、定位、功能、间接或负向类别。我们在跨物种和提示策略 (https://huggingface.co/papers?q=prompting%20strategies) 上对多种开放权重和闭源语言模型 (https://huggingface.co/papers?q=closed-source%20language%20models) 进行了基准测试。尽管前沿模型在直接表达证据上取得了相对较强的表现，但在功能性、间接性和弱支持证据上的性能大幅下降，证据类型混淆成为主要的失败模式。开放权重模型 (https://huggingface.co/papers?q=Open-weight%20models) 在模糊的生物背景下还表现出较高的假阳性率 (https://huggingface.co/papers?q=false-positive%20rates)。PlantMarkerBench 提供了一个具有挑战性且可重现的评估框架，用于文献支撑的生物学证据 (https://huggingface.co/papers?q=literature-grounded%20biological%20evidence) 归属，并支持未来关于可信科学信息提取和 AI 辅助植物生物学的研究。

查看 arXiv 页面 (https://arxiv.org/abs/2605.10032) 查看 PDF (https://arxiv.org/pdf/2605.10032) 项目页面 (https://huggingface.co/datasets/Sajib-006/PlantMarkerBench) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.10032)

在您的 agent 中获取此论文：

hf papers read 2605\.10032

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.10032 以从该页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.10032 以从该页面链接。

引用此论文的 Spaces0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.10032 以从该页面链接。

包含此论文的集合0

没有集合包含此论文

将此论文添加到集合 (https://huggingface.co/new-collection) 以从该页面链接。

PlantMarkerBench：一个基于证据的植物标记基因推理多物种基准测试

论文页面 - PlantMarkerBench：面向证据支撑的植物标记物推理的多物种基准

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的集合0

相似文章

BAGEL：语言模型中的动物知识专业性基准评估

部分证据基准：对智能体系统中授权受限证据的评估

WildTableBench：在真实场景中评估多模态基础模型的表格理解能力

Magis-Bench: Evaluating LLMs on Magistrate-Level Legal Tasks

VLegal-Bench: 越南法律推理认知基础基准测试

提交意见反馈