PlantMarkerBench:一个基于证据的植物标记基因推理多物种基准测试
摘要
本文介绍了 PlantMarkerBench,这是一个多物种基准测试,旨在评估语言模型从四个物种的科学文献中解读植物标记基因证据的能力。文章指出,尽管前沿模型在处理直接证据方面表现良好,但在处理功能和间接证据类型时仍面临困难。
查看缓存全文
缓存时间: 2026/05/13 00:20
论文页面 - PlantMarkerBench:面向证据支撑的植物标记物推理的多物种基准
来源:https://huggingface.co/papers/2605.10032
摘要
PlantMarkerBench 提出了一个多物种基准,用于评估基于文献的植物标记物证据解读,评估模型在四个植物物种中识别有效标记物证据和分类证据类型的能力。
细胞类型特异性标记基因是植物生物学的基础,然而现有资源主要依赖于整理过的数据库或高通量研究,而没有明确地对科学文献中发现的支持性证据进行建模。我们引入了 PlantMarkerBench,一个多物种基准,用于评估基于全文生物学论文的文献支撑植物标记物证据解读。PlantMarkerBench 是通过一个模块化整理流程构建的,集成了大规模文献检索、混合搜索 (https://huggingface.co/papers?q=hybrid%20search)、物种感知的生物学 grounding (https://huggingface.co/papers?q=biological%20grounding)、结构化证据提取 (https://huggingface.co/papers?q=structured%20evidence%20extraction) 和目标性人工审查。该基准涵盖四个植物物种——拟南芥、玉米、水稻和番茄——包含 5,550 个句子级证据实例 (https://huggingface.co/papers?q=sentence-level%20evidence%20instances),标注了标记物-证据有效性 (https://huggingface.co/papers?q=marker-evidence%20validity)、证据类型和支持强度。我们定义了两个基准任务:判断候选句子是否为基因-细胞类型对提供有效的标记物证据,以及将证据分类为表达、定位、功能、间接或负向类别。我们在跨物种和提示策略 (https://huggingface.co/papers?q=prompting%20strategies) 上对多种开放权重和闭源语言模型 (https://huggingface.co/papers?q=closed-source%20language%20models) 进行了基准测试。尽管前沿模型在直接表达证据上取得了相对较强的表现,但在功能性、间接性和弱支持证据上的性能大幅下降,证据类型混淆成为主要的失败模式。开放权重模型 (https://huggingface.co/papers?q=Open-weight%20models) 在模糊的生物背景下还表现出较高的假阳性率 (https://huggingface.co/papers?q=false-positive%20rates)。PlantMarkerBench 提供了一个具有挑战性且可重现的评估框架,用于文献支撑的生物学证据 (https://huggingface.co/papers?q=literature-grounded%20biological%20evidence) 归属,并支持未来关于可信科学信息提取和 AI 辅助植物生物学的研究。
查看 arXiv 页面 (https://arxiv.org/abs/2605.10032) 查看 PDF (https://arxiv.org/pdf/2605.10032) 项目页面 (https://huggingface.co/datasets/Sajib-006/PlantMarkerBench) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.10032)
在您的 agent 中获取此论文:
hf papers read 2605\.10032
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.10032 以从该页面链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.10032 以从该页面链接。
引用此论文的 Spaces0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.10032 以从该页面链接。
包含此论文的集合0
没有集合包含此论文
将此论文添加到集合 (https://huggingface.co/new-collection) 以从该页面链接。
相似文章
BAGEL:语言模型中的动物知识专业性基准评估
BAGEL是一个用于评估大语言模型中与动物相关知识的新基准,从多种科学资源构建,涵盖分类学、形态学、栖息地、行为和物种相互作用等方面,通过闭卷问答对形式呈现。该基准可以进行跨分类群和知识类别的细粒度分析,为生物多样性应用中的模型优势和失败模式提供洞见。
部分证据基准:对智能体系统中授权受限证据的评估
本文提出了 Partial-Evidence-Bench,这是一个用于衡量智能体 AI 系统中“授权受限证据”失败模式的确定性基准测试。它评估模型在处理访问控制限制可见性的任务时的表现,重点考察其识别并报告信息不完整的能力,而非悄无声息地生成看似完整实则遗漏关键信息的回答。
WildTableBench:在真实场景中评估多模态基础模型的表格理解能力
WildTableBench 提出了首个针对真实世界表格图像的问答应答基准,揭示了现有多模态基础模型在结构感知和数值推理方面存在显著困难,仅有1个模型准确率超过50%。
Magis-Bench: Evaluating LLMs on Magistrate-Level Legal Tasks
This article introduces Magis-Bench, a benchmark for evaluating large language models on magistrate-level legal tasks such as judicial reasoning and sentence drafting, using data from Brazilian judicial exams.
VLegal-Bench: 越南法律推理认知基础基准测试
VLegal-Bench 是一个认知基础基准测试,用于评估大语言模型在越南法律推理任务中的表现,包含 10,450 个专家标注样本,旨在填补民法系统法律基准的空白。该基准通过问答、多步推理和场景问题解决来评估多个层次的法律理解,为在非英文、成文法律背景下评估大语言模型提供了一个可复现的框架。