BioTool:用于增强大型语言模型生物医学能力的综合工具调用数据集
摘要
BioTool 引入了一个全面的生物医学工具调用数据集,包含34个工具和7,040个人工验证的查询-API对,使得经过微调的大型语言模型在生物医学工具使用上超越GPT-5.1,并显著提升答案质量。
arXiv:2605.05758v1 公告类型:新
摘要:尽管大型语言模型(LLM)在通用任务上取得了成功,但在生物医学等高度专业化领域中的表现仍不尽人意。一个关键限制是LLM无法有效利用生物医学工具,而临床专家和生物医学研究人员在日常工作中高度依赖这些工具。虽然近期通用领域的工具调用数据集大幅提升了LLM代理的能力,但生物医学领域的现有工作主要依赖上下文学习,并将模型限制在一小部分工具上。为填补这一空白,我们引入了BioTool——一个专为微调LLM设计的综合生物医学工具调用数据集。BioTool包含来自NCBI、Ensembl和UniProt数据库的34个常用工具,以及7,040个高质量、人工验证的查询-API调用对,涵盖变异、基因组学、蛋白质组学、进化生物学和普通生物学领域。在BioTool上微调一个40亿参数的LLM,显著提升了生物医学工具调用性能,超越了GPT-5.1等尖端商业LLM。此外,人类专家评估表明,与不使用工具的同一LLM相比,集成BioTool微调的工具调用器显著提高了下游答案质量,突显了BioTool在增强LLM生物医学能力方面的有效性。完整数据集和评估代码见https://github.com/gxx27/BioTool
查看缓存全文
缓存时间: 2026/05/08 06:42
# BioTool:一个用于增强大语言模型生物医学能力的综合工具调用数据集
来源:https://arxiv.org/html/2605.05758
Xin Gao¹†、Ruiyi Zhang¹†††、Meixi Du¹、Peijia Qin¹、Pengtao Xie¹,²††
¹加州大学圣地亚哥分校 ²穆罕默德·本·扎耶德人工智能大学
\{xig022, ruz048, p1xie\}@ucsd\.edu
###### 摘要
尽管大语言模型(LLMs)在通用任务上取得了成功,但在生物医学等高度专业化领域的表现仍不尽如人意。一个关键限制在于LLMs无法有效利用生物医学工具,而这些工具正是临床专家和生物医学研究人员在日常工作中广泛依赖的。虽然近期通用领域的工具调用数据集显著提升了LLM智能体的能力,但现有生物医学领域的努力主要依赖于上下文学习,且将模型限制在少量工具上。为弥补这一空白,我们提出了BioTool,一个用于微调LLMs的综合生物医学工具调用数据集。BioTool包含从NCBI、Ensembl和UniProt数据库收集的34个常用工具,以及7,040个经过人工验证的高质量查询–API调用对,涵盖变异、基因组学、蛋白质组学、进化和一般生物学等领域。在一个40亿参数的LLM上使用BioTool进行微调,其在生物医学工具调用性能上取得了显著提升,超越了GPT-5.1等尖端商业LLM。此外,人类专家评估表明,与未使用工具的同一LLM相比,集成BioTool微调后的工具调用器可显著提升下游答案质量,突显了BioTool在增强LLM生物医学能力方面的有效性。完整数据集和评估代码已公开于https://github.com/gxx27/BioTool。
## BioTool:一个用于增强大语言模型生物医学能力的综合工具调用数据集
Xin Gao¹†††、Ruiyi Zhang¹†††、Meixi Du¹、Peijia Qin¹、Pengtao Xie¹,²††
¹加州大学圣地亚哥分校 ²穆罕默德·本·扎耶德人工智能大学
\{xig022, ruz048, p1xie\}@ucsd\.edu
## 1 引言
大语言模型(LLMs)的快速发展彻底改变了自然语言处理,使其在广泛的通用任务中实现了前所未有的性能(OpenAI,2023(https://arxiv.org/html/2605.05758#bib.bib21);Bai等,2023(https://arxiv.org/html/2605.05758#bib.bib5))。然而,它们在生物医学领域的能力仍然有限,这阻碍了它们在高风险真实世界生物医学应用中的部署(Chen等,2025(https://arxiv.org/html/2605.05758#bib.bib7);Li等,2025a(https://arxiv.org/html/2605.05758#bib.bib16))。这种限制的一个关键原因是LLMs无法有效利用专门的生物医学工具(Jin等,2024(https://arxiv.org/html/2605.05758#bib.bib13))。与通常可以直接回答的常识性问题不同,生物医学问题通常需要即使是专家研究人员也要咨询外部工具和数据库才能得出可靠结论(NCBI,2017(https://arxiv.org/html/2605.05758#bib.bib20))。例如,即使是人类生物学家,如果没有计算工具(如BLAST或其他基于序列相似性的方法)的帮助,也无法可靠地推断原始核苷酸序列的生物学功能(Altschul等,1990(https://arxiv.org/html/2605.05758#bib.bib2))。如图1(https://arxiv.org/html/2605.05758#S1.F1)所示,无法访问或集成此类工具的LLM因此容易产生幻觉和不精确的泛化,削弱了它们在科学发现中的可靠性。

鉴于这些挑战,早期尝试通过上下文学习将生物医学和化学工具集成到LLM中(Jin等,2024(https://arxiv.org/html/2605.05758#bib.bib13);Bran等,2024(https://arxiv.org/html/2605.05758#bib.bib6))。尽管这些方法显示出改进,但由于上下文长度有限,它们被限制在少量可用工具上。此外,生物医学研究工具通常支持多样且复杂的使用场景,无法通过几行文本提示完全捕捉,这阻碍了LLM在生物医学工具使用中充分发挥潜力。更进一步,它们要求模型将自然语言问题映射到高度专业化的模式、标识符和参数约定,以可靠地检索生物学相关证据。受通用NLP领域基于指令微调的工具调用数据集成功的启发(Liu等,2024(https://arxiv.org/html/2605.05758#bib.bib18);Patil等,2024(https://arxiv.org/html/2605.05758#bib.bib26)),我们通过整理一个全面的生物医学工具调用数据集BioTool来弥补这一空白。BioTool是一个指令微调风格的生物医学工具调用数据集,包含7,040个高质量、人工验证的查询–API调用对。它包含来自NCBI(NCBI,2017(https://arxiv.org/html/2605.05758#bib.bib20))、Ensembl(Hubbard等,2002(https://arxiv.org/html/2605.05758#bib.bib11))和UniProt(The UniProt Consortium,2017(https://arxiv.org/html/2605.05758#bib.bib31))数据库的34个常用工具,涵盖变异、基因组学、蛋白质组学、进化和一般生物学等多个子领域。为构建数据集,我们首先手动从NCBI、Ensembl和UniProt中挑选出生物医学研究中广泛使用的34个工具。然后,从这些工具的官方网站收集官方文档,并借助LLM生成API参数的各种组合。合成的API调用被执行并过滤,去除那些返回不可用或无信息响应的情况,最终得到3,829个唯一的API调用。接着,我们使用这些API调用及其对应响应来提示尖端推理模型(OpenAI,2025(https://arxiv.org/html/2605.05758#bib.bib24))生成潜在的用户查询。这些查询随后由基于LLM的评判者评估,判断API响应是否有意义地支持回答查询,最后经过一轮关注生物学相关性和正确性的人类专家审查。这一过程产生了7,040个高质量的查询–API调用对,即最终的BioTool数据集。
我们通过两组实验评估BioTool的质量和有效性。首先,我们在BioTool训练集上微调了几个40亿到80亿参数的开源LLM,并与尖端商业LLM(包括GPT-5.1、Gemini-3 Pro和Claude-4.5-Sonnet)使用上下文学习进行比较。测试集上的结果表明,使用BioTool微调的小型LLM在工具调用质量上显著优于参数多出数百倍的商业LLM。例如,一个使用BioTool微调的40亿参数Qwen-3模型在整体API调用质量上比表现最好的Claude-4.5-Sonnet高出15.0%。其次,我们进行人工评估,从生物医学研究人员的角度评估使用BioTool增强的LLM是否产生更高质量的答案。在1,048个测试查询上,一个使用oracle BioTool API调用增强的GPT-5.1模型,与未使用工具的同一模型相比,标准化答案质量提高了88.4%,证明了BioTool数据集的内在质量。此外,一个使用BioTool微调API调用器增强的GPT-5.1模型,与原始GPT-5.1模型相比,标准化答案质量提高了69%,突显了BioTool在训练使用工具的LLM并增强其生物医学能力方面的有效性。
## 2 相关工作
早期的通用工具调用模型,如Toolformer(Schick等,2023(https://arxiv.org/html/2605.05758#bib.bib30))和Gorilla(Patil等,2024(https://arxiv.org/html/2605.05758#bib.bib26)),确立了LLM可以训练调用外部API,从而将响应基于检索到的数据以减轻幻觉。随后的框架如ToolBench(Qin等,2023(https://arxiv.org/html/2605.05758#bib.bib27))和APIGen(Liu等,2024(https://arxiv.org/html/2605.05758#bib.bib18))通过引入可扩展的合成指令微调数据流水线,推进了这一能力。尽管有这些进展,通用模型在生物医学等专业科学领域仍然困难重重,因为它们依赖的广泛数据集中只包含极少比例的相应工具,并且常常无法遵守科学数据库严格的模式约束。
为解决这些限制,特定领域的智能体应运而生。GeneGPT(Jin等,2024(https://arxiv.org/html/2605.05758#bib.bib13))通过利用上下文学习(Wei等,2023(https://arxiv.org/html/2605.05758#bib.bib33))使模型能够访问NCBI Web API,开创了这一转变。类似地,SciAgent(Li等,2025b(https://arxiv.org/html/2605.05758#bib.bib17))和ChemCrow(Bran等,2024(https://arxiv.org/html/2605.05758#bib.bib6))等系统成功地将工具增强智能体集成到科学和化学研究的复杂推理中。虽然较新的如Biomni(Huang等,2025(https://arxiv.org/html/2605.05758#bib.bib10))引入了用于生物医学任务的通用智能体,但它们主要关注一个受限的工具子集。因此,它们缺乏对主要权威生物医学数据库的全面、完整列表接口。

## 3 BioTool数据集
本节详细介绍BioTool的开发和组成。我们首先展示一个BioTool数据条目示例,以说明查询–API调用对的结构。每个条目包含一个`user query`字段,该字段包含一个以自由文本形式表达的、真实的临床或生物医学问题。`tool information`字段提供回答查询所需的工具描述,而`API arguments`指定相应API端点的输入参数。使用这些参数执行API端点会返回`observations`,其中包含用于增强LLM响应的信息。我们注意到,观察值完全由API端点及其参数决定;为完整性和用户便利起见,它被包含在数据集中。接下来,我们在第3.1节(https://arxiv.org/html/2605.05758#S3.SS1)中描述用于生成和验证生物医学工具调用对的顺序构建流水线,如图2(https://arxiv.org/html/2605.05758#S2.F2)所示。然后,我们在第3.2节(https://arxiv.org/html/2605.05758#S3.SS2)中对结果数据集进行定量分析,突出其功能实用性和生物学多样性。
### BioTool数据条目示例
**用户查询**:您能否提供主要严重免疫缺陷障碍的简明定义?
**工具信息**:
**API参数**:
**观察值**:
\(id: “DI-00171”, definition: “一种常染色体隐性免疫疾病,其特征是抗原呈递细胞上MHC II类抗原表达丧失...”\),
\(id: “DI-00305”, definition: “一种慢性肉芽肿病的形式...”\),
...

### 3.1 数据集构建流水线
#### 工具选择
我们选择三个主要的在线API提供商:美国国家生物技术信息中心(NCBI)、UniProt和Ensembl作为BioTool的工具来源,基于它们作为全球生物医学研究基础设施中权威知识库的角色(Sayers,2010(https://arxiv.org/html/2605.05758#bib.bib29);Ahmad等,2025(https://arxiv.org/html/2605.05758#bib.bib1);Yates等,2014(https://arxiv.org/html/2605.05758#bib.bib35))。这三个平台被广泛认为是最终标准,因为它们提供涵盖生物学中心法则的广泛且高度互操作的数据,包括从原始基因组序列到功能蛋白质注释的完整谱系。在三个数据库中,我们全面审查其网站,并手动选择对回答生物医学和临床问题至关重要的工具。在此过程中,我们排除了生物医学相关性有限的工具(例如,仅返回服务或版本信息的API),以及已废弃或不稳定的工具。因此,我们整理了一个包含34个工具(共124个API端点)的多样化集合,每个工具都在生物医学研究工作流中频繁使用。所选工具的完整列表见附录F(https://arxiv.org/html/2605.05758#A6)。此外,我们从相应网站收集每个API端点的官方文档。这些文档规定了API用法、输入参数、约束和示例调用,并作为后续API调用合成和用户查询生成阶段的重要资源。
#### API调用合成与验证
基于整理的工具集及相关文档,我们为每个API端点手动选择与生物学上有意义的标识符相对应的关键API参数。这些参数,如分类ID、基因符号和UniProt登录号,确保合成的API调用在生物学上多样且科学上合理。给定所选参数,我们遵循先前工作(Liu等,2024(https://arxiv.org/html/2605.05758#bib.bib18))随机采样大量候选API调用。然后执行这些候选调用,以过滤掉导致客户端错误、超时或空响应的情况。为进一步提高数据质量,我们设计了一种新颖的基于启发式的过滤策略,以移除与现有调用过于相似的API调用,以及那些返回观察值缺乏生物学意义的调用。该启发式过滤器的详细信息见附录A(https://arxiv.org/html/2605.05758#A1)。经过此验证过程,我们获得了一个包含6,391个唯一API调用的集合。
#### 用户查询生成
给定合成的API调用,我们利用尖端LLM生成相应的用户查询,遵循先前工作中建立的自我指令风格范式(Wang等,2022(https://arxiv.org/html/2605.05758#bib.bib32);Patil等,2024(https://arxiv.org/html/2605.05758#bib.bib26);Liu等,2024(https://arxiv.org/html/2605.05758#bib.bib18))。具体来说,LLM被提示一个API调用、其文档及其对应的观察值,以及一小部分人工编写的上下文示例。相似文章
超越API:探究MLLMs在物理工具使用中的极限
本文介绍了PhysTool-Bench,一个用于评估多模态大语言模型在真实世界场景中识别和规划物理工具使用能力的基准。作者发现,即使是最佳模型也只能识别58.7%的工具,并仅完成21.0%的端到端查询,揭示了感知和功能常识两个层面的缺陷。
用于生物医学声明验证的小型LLM:经济高效的微调、结构化数据集捷径与跨域泛化
使用QLoRA对小型LLM(3B-7B)进行生物医学声明验证的微调,以44.5倍更低的成本实现了比GPT-4o和GPT-5更高的F1分数,并揭示了SciFact中的一个结构伪影。该研究表明,在结构合理的数据上进行训练可实现稳健的跨域迁移。
MedicalBench:评估大型语言模型以改进医学概念提取
MedicalBench是一个新的基准测试,用于评估大型语言模型从电子健康记录中提取医学概念的能力,重点关注隐含推理和证据支撑。它包含823个专家标注的示例,并显示当前模型表现一般,突显了提取隐含表述的医学概念的难度。
基准测试生物学 AI 智能体:ML@B 与 LatchBio 的合作
加州大学伯克利分校机器学习团队(ML@B)与 LatchBio 合作,对其 AI 智能体在空间转录组工作流程中的性能进行了基准测试,评估其自动化复杂生物信息学任务的能力。
ToolSense: 用于审计大语言模型中参数化工具知识的诊断框架
ToolSense 是一个开源诊断框架,能够生成三个基准测试(真实检索、多选题探测、问答探测),用于审计大语言模型的参数化工具知识,揭示了知识-检索分离现象:强大的检索性能可能与较差的事实理解共存。