BioMatrix:迈向涵盖序列、结构和语言模态矩阵的综合性生物基础模型

Hugging Face Daily Papers 论文

摘要

BioMatrix是一个多模态基础模型,在单一的仅解码器架构中统一了分子序列、结构和自然语言,在80个生物学任务中的77个上达到了最先进性能。

我们提出了BioMatrix,这是首个在单一的仅解码器架构中原生集成分子和蛋白质的序列、结构及自然语言的多模态基础模型。现有的生物基础模型分别追求原生多模态和广泛实体覆盖:那些在共享目标下融合多种模态的模型局限于单一实体类型,而覆盖多种实体类型的模型要么省略了显式结构建模,要么依赖基于适配器的设计,使得模型无法原生生成其所能读取的模态。BioMatrix通过统一的标记化方案,将分子序列(支持SMILES和SELFIES表示法)、分子结构、蛋白质序列、蛋白质结构以及自然语言映射到一个共享的离散标记空间,从而在单一的下一个标记预测目标下统一消费和生成所有模态——无需外部编码器、投影适配器或模态特定的输出头。BioMatrix基于Qwen3语言模型(1.7B和4B),在包含通用和领域特定文本、分子和蛋白质的序列与结构视图、以及将生物分子实体与科学文本交错并通过分子-蛋白质和蛋白质-蛋白质相互作用数据链接不同实体的跨模态语料库上,持续预训练了3044亿个标记。在经过涵盖6个类别80个任务的下游应用综合套件微调后——包括跨模态和模态内的单实体与多实体理解与生成任务——BioMatrix在80个任务中的77个上达到了最先进或具有竞争力的性能,表明一个单一的原生多模态通才模型能够在广泛的生物学任务中有效匹配或超越专门化方法。
查看原文
查看缓存全文

缓存时间: 2026/06/23 09:41

论文页面 - BioMatrix:迈向涵盖序列、结构和语言模态矩阵的综合性生物基础模型

来源:https://huggingface.co/papers/2606.22138 作者:

,

,

,

,

,

,

,

,

,

,

摘要

BioMatrix 是一种新颖的多模态基础模型,它将分子序列、结构和自然语言整合到一个统一的仅解码器架构中,用于多样化的生物任务。

我们提出了 BioMatrix,这是第一个多模态基础模型 (https://huggingface.co/papers?q=multimodal%20foundation%20model),它在一个单一的仅解码器架构 (https://huggingface.co/papers?q=decoder-only%20architecture) 中,为分子和蛋白质原生集成了序列、结构和自然语言 (https://huggingface.co/papers?q=natural%20language)。现有的生物基础模型分别追求原生多模态和广泛的实体覆盖:那些在共同目标下融合多种模态的模型仍然局限于单一实体类型,而那些跨越多种实体类型的模型要么省略了明确的结构建模,要么依赖于基于适配器的设计,在这种设计中模型无法原生生成它可以读取的模态。BioMatrix 通过一个统一的分词方案,将分子序列(支持 SMILES 和 SELFIES 符号)、分子结构、蛋白质序列、蛋白质结构和自然语言映射到一个共享的离散 token 空间,从而弥补了这一差距,使得所有模态在单一的下一 token 预测目标下被均匀地消费和生成——无需外部编码器、投影适配器或特定于模态的输出头。BioMatrix 基于 Qwen3 语言模型(1.7B 和 4B)构建,在 304.4 billion 个 token 上持续预训练,这些 token 涵盖了通用和领域特定的文本、分子和蛋白质的序列和结构视图,以及交叉模态语料库,这些语料库将生物分子实体与科学文本交错,并通过分子-蛋白质和蛋白质-蛋白质相互作用数据连接不同的实体。在对涵盖 6 个类别 80 个任务的全面下游应用套件进行调优后——包括跨模态和模态内的单实体和多实体理解与生成任务——BioMatrix 在 80 个任务中的 77 个上达到了最先进或竞争性性能,表明一个单一的、原生多模态的通才模型可以在广泛的生物任务中有效匹配或超越专门方法。

查看 arXiv 页面 (https://arxiv.org/abs/2606.22138) 查看 PDF (https://arxiv.org/pdf/2606.22138) GitHub19 (https://github.com/QizhiPei/BioMatrix) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.22138)

引用本文的模型 4

QizhiPei/BioMatrix-4B-Base 文本生成 • 4B • 更新于约 1 小时前 • 77 • 1 (https://huggingface.co/QizhiPei/BioMatrix-4B-Base)

QizhiPei/BioMatrix-4B-SFT 文本生成 • 4B • 更新于约 1 小时前 • 69 • 1 (https://huggingface.co/QizhiPei/BioMatrix-4B-SFT)

QizhiPei/BioMatrix-1.7B-Base 文本生成 • 2B • 更新于约 1 小时前 • 76 (https://huggingface.co/QizhiPei/BioMatrix-1.7B-Base)

QizhiPei/BioMatrix-1.7B-SFT 文本生成 • 2B • 更新于约 1 小时前 • 5 (https://huggingface.co/QizhiPei/BioMatrix-1.7B-SFT)

引用本文的数据集 1

QizhiPei/BioMatrix-SFT 查看器 • 更新于约 1 小时前 • 23.6M • 787 • 1 (https://huggingface.co/datasets/QizhiPei/BioMatrix-SFT)

引用本文的 Space 0

无 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2606.22138,以从该页面链接它。

包含本文的收藏集 0

无收藏包含本文

将此论文添加到收藏集 (https://huggingface.co/new-collection),以从该页面链接它。

相似文章

Brain Score 追踪语言的共享属性:来自多种自然语言和结构序列的证据

arXiv cs.CL

本文研究了 Brain Score(一个将语言模型表征与人类阅读时 fMRI 激活进行比较的指标)是否真正捕捉到类似人类的语言处理,或仅反映结构相似性。研究人员在多种自然语言和非语言结构数据(基因组、Python、嵌套括号)上训练语言模型,发现在不同语言和非语言序列上训练的模型达到相似的 Brain Score 性能,这表明该指标可能不足以区分人类特有的处理方式。

超越基于提示的规划:面向生物医学智能体系统的MCP原生图规划方法

arXiv cs.AI

BioManus 是一个 MCP 原生生物医学智能体系统,它采用基于图脚手架的规划方式,对结构化生物学能力进行调度,而非依赖扁平化的基于提示的工具检索,在生物医学基准测试中实现了更优的上下文效率与执行精度。该系统引入了 BioinfoMCP 编译器,用于标准化异构生物信息学工具,并将其组织为类型化异构 MCP 图,以支持可扩展的推理能力。

贝叶斯模型合并

arXiv cs.LG

介绍贝叶斯模型合并(BMM),这是一个即插即用的双层优化框架,用于将多个任务特定的专家模型合并为一个单一模型,在视觉和语言基准测试上实现了最先进的性能。