BioMatrix:迈向涵盖序列、结构和语言模态矩阵的综合性生物基础模型
摘要
BioMatrix是一个多模态基础模型,在单一的仅解码器架构中统一了分子序列、结构和自然语言,在80个生物学任务中的77个上达到了最先进性能。
查看缓存全文
缓存时间: 2026/06/23 09:41
论文页面 - BioMatrix:迈向涵盖序列、结构和语言模态矩阵的综合性生物基础模型
来源:https://huggingface.co/papers/2606.22138 作者:
,
,
,
,
,
,
,
,
,
,
摘要
BioMatrix 是一种新颖的多模态基础模型,它将分子序列、结构和自然语言整合到一个统一的仅解码器架构中,用于多样化的生物任务。
我们提出了 BioMatrix,这是第一个多模态基础模型 (https://huggingface.co/papers?q=multimodal%20foundation%20model),它在一个单一的仅解码器架构 (https://huggingface.co/papers?q=decoder-only%20architecture) 中,为分子和蛋白质原生集成了序列、结构和自然语言 (https://huggingface.co/papers?q=natural%20language)。现有的生物基础模型分别追求原生多模态和广泛的实体覆盖:那些在共同目标下融合多种模态的模型仍然局限于单一实体类型,而那些跨越多种实体类型的模型要么省略了明确的结构建模,要么依赖于基于适配器的设计,在这种设计中模型无法原生生成它可以读取的模态。BioMatrix 通过一个统一的分词方案,将分子序列(支持 SMILES 和 SELFIES 符号)、分子结构、蛋白质序列、蛋白质结构和自然语言映射到一个共享的离散 token 空间,从而弥补了这一差距,使得所有模态在单一的下一 token 预测目标下被均匀地消费和生成——无需外部编码器、投影适配器或特定于模态的输出头。BioMatrix 基于 Qwen3 语言模型(1.7B 和 4B)构建,在 304.4 billion 个 token 上持续预训练,这些 token 涵盖了通用和领域特定的文本、分子和蛋白质的序列和结构视图,以及交叉模态语料库,这些语料库将生物分子实体与科学文本交错,并通过分子-蛋白质和蛋白质-蛋白质相互作用数据连接不同的实体。在对涵盖 6 个类别 80 个任务的全面下游应用套件进行调优后——包括跨模态和模态内的单实体和多实体理解与生成任务——BioMatrix 在 80 个任务中的 77 个上达到了最先进或竞争性性能,表明一个单一的、原生多模态的通才模型可以在广泛的生物任务中有效匹配或超越专门方法。
查看 arXiv 页面 (https://arxiv.org/abs/2606.22138) 查看 PDF (https://arxiv.org/pdf/2606.22138) GitHub19 (https://github.com/QizhiPei/BioMatrix) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.22138)
引用本文的模型 4
QizhiPei/BioMatrix-4B-Base 文本生成 • 4B • 更新于约 1 小时前 • 77 • 1 (https://huggingface.co/QizhiPei/BioMatrix-4B-Base)
QizhiPei/BioMatrix-4B-SFT 文本生成 • 4B • 更新于约 1 小时前 • 69 • 1 (https://huggingface.co/QizhiPei/BioMatrix-4B-SFT)
QizhiPei/BioMatrix-1.7B-Base 文本生成 • 2B • 更新于约 1 小时前 • 76 (https://huggingface.co/QizhiPei/BioMatrix-1.7B-Base)
QizhiPei/BioMatrix-1.7B-SFT 文本生成 • 2B • 更新于约 1 小时前 • 5 (https://huggingface.co/QizhiPei/BioMatrix-1.7B-SFT)
引用本文的数据集 1
QizhiPei/BioMatrix-SFT 查看器 • 更新于约 1 小时前 • 23.6M • 787 • 1 (https://huggingface.co/datasets/QizhiPei/BioMatrix-SFT)
引用本文的 Space 0
无 Space 链接此论文
在 Space 的 README.md 中引用 arxiv.org/abs/2606.22138,以从该页面链接它。
包含本文的收藏集 0
无收藏包含本文
将此论文添加到收藏集 (https://huggingface.co/new-collection),以从该页面链接它。
相似文章
Brain Score 追踪语言的共享属性:来自多种自然语言和结构序列的证据
本文研究了 Brain Score(一个将语言模型表征与人类阅读时 fMRI 激活进行比较的指标)是否真正捕捉到类似人类的语言处理,或仅反映结构相似性。研究人员在多种自然语言和非语言结构数据(基因组、Python、嵌套括号)上训练语言模型,发现在不同语言和非语言序列上训练的模型达到相似的 Brain Score 性能,这表明该指标可能不足以区分人类特有的处理方式。
BioTool:用于增强大型语言模型生物医学能力的综合工具调用数据集
BioTool 引入了一个全面的生物医学工具调用数据集,包含34个工具和7,040个人工验证的查询-API对,使得经过微调的大型语言模型在生物医学工具使用上超越GPT-5.1,并显著提升答案质量。
超越基于提示的规划:面向生物医学智能体系统的MCP原生图规划方法
BioManus 是一个 MCP 原生生物医学智能体系统,它采用基于图脚手架的规划方式,对结构化生物学能力进行调度,而非依赖扁平化的基于提示的工具检索,在生物医学基准测试中实现了更优的上下文效率与执行精度。该系统引入了 BioinfoMCP 编译器,用于标准化异构生物信息学工具,并将其组织为类型化异构 MCP 图,以支持可扩展的推理能力。
贝叶斯模型合并
介绍贝叶斯模型合并(BMM),这是一个即插即用的双层优化框架,用于将多个任务特定的专家模型合并为一个单一模型,在视觉和语言基准测试上实现了最先进的性能。
基准测试生物学 AI 智能体:ML@B 与 LatchBio 的合作
加州大学伯克利分校机器学习团队(ML@B)与 LatchBio 合作,对其 AI 智能体在空间转录组工作流程中的性能进行了基准测试,评估其自动化复杂生物信息学任务的能力。