以165美元在25个物种间训练mRNA语言模型

Hugging Face Blog 模型

摘要

本文介绍了CodonRoBERTa的开发过程,这是一种在25个物种间进行训练的mRNA密码子优化语言模型,重点展示了一个包含蛋白质折叠和序列设计的经济高效流程。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/05/08 09:13

以 165 美元跨 25 个物种训练 mRNA 语言模型

来源:https://huggingface.co/blog/OpenMed/training-mrna-models-25-species 返回文章列表 (https://huggingface.co/blog)

Maziyar Panahi 的头像 (https://huggingface.co/MaziyarPanahi)

- 第二部分:构建流程,从结构预测到密码子优化 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#part-ii-building-the-pipeline-from-structure-prediction-to-codon-optimization) - 1. 我们构建了什 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#1-what-we-built) - 2. 架构探索 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#2-the-architecture-exploration)- 候选方案 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#the-contenders) - 训练设置 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#the-training-setup) - 结果 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#the-results) - 我们的收获 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#what-we-learned) - 3. 流程 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#3-the-pipeline)- 3.1 使用 ESMFold 进行蛋白质折叠 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#31-protein-folding-with-esmfold) - 我们的结果:30 条蛋白质链 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#our-results-30-protein-chains) - 运行 ESMFold (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#running-esmfold) - 3.2 使用 ProteinMPNN 进行序列设计 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#32-sequence-design-with-proteinmpnn) - 我们的结果:支架 7K00 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#our-results-scaffold-7k00) - 3.3 mRNA 优化 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#33-mrna-optimization) - CodonRoBERTa:我们的最佳模型 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#codonroberta-our-best-model) - 评估:三个关键指标 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#evaluation-three-metrics-that-matter) - 运行评估 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#running-the-evaluations) - 最终排行榜 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#the-final-leaderboard) - 使用模型 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#using-the-model) - 4. 扩展到多物种 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#4-scaling-to-multi-species)- 数据工程挑战 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#the-data-engineering-challenge) - 分词创新 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#the-tokenization-innovation) - 训练通用基础模型 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#training-the-universal-base-model) - 物种特异性微调 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#species-specific-fine-tuning) - 完整模型套件 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#the-complete-model-suite) - 生产部署策略 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#production-deployment-strategy) - 基础设施与可复现性 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#infrastructure–reproducibility) - 这使能了什么 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#what-this-enables) - 数据一览 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#by-the-numbers) - 5. 端到端工作流 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#5-the-end-to-end-workflow) - 6. 现状与展望 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#6-where-this-stands-and-whats-next)- 领域概况 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#the-landscape) - 进行中:CodonJEPA (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#in-progress-codonjepa) - 路线图 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#roadmap) - 设置与需求 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#setup-and-requirements) - 7. 参考文献 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#7-references)- 关键论文 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#key-papers) - 模型与数据:即将推出 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#models-and-data-coming-soon) https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#part-ii-building-the-pipeline-from-structure-prediction-to-codon-optimization第二部分:构建流程,从结构预测到密码子优化

作者:OpenMed,面向医疗与生命科学的开源智能体 AI


太长不看:我们构建了一个端到端的蛋白质 AI 流程,涵盖结构预测、序列设计和密码子优化。在比较了多种用于密码子级别语言建模的 transformer 架构后,CodonRoBERTa-large-v2 以困惑度 4.10 和 Spearman CAI 相关性 0.40 脱颖而出,显著优于 ModernBERT。随后我们将模型扩展到 25 个物种,在 55 GPU 小时内训练了 4 个生产模型,并构建了一个物种条件化系统——这是其他开源项目所不具备的。完整结果、架构决策和可运行代码如下。

目录

  1. 我们构建了什么 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#1-what-we-built)
  2. 架构探索 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#2-the-architecture-exploration)
  3. 流程 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#3-the-pipeline)- 3.1 蛋白质折叠 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#31-protein-folding-with-esmfold) - 3.2 序列设计 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#32-sequence-design-with-proteinmpnn) - 3.3 mRNA 优化 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#33-mrna-optimization)
  4. 扩展到多物种 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#4-scaling-to-multi-species)
  5. 端到端工作流 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#5-the-end-to-end-workflow)
  6. 现状与展望 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#6-where-this-stands-and-whats-next)
  7. 参考文献 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#7-references)

想象从一个治疗性蛋白质概念到合成就绪的密码子优化 DNA 序列,仅需一个下午。OpenMed 致力于构建这样的流程,本文档记录了从头到尾的完整过程。

在第一部分中,我们梳理了蛋白质 AI 的全景:驱动结构预测的架构、用于蛋白质设计的开源工具,以及从 AlphaFold 到 ESMFold 的模型生态系统。那是一次调研。这次是实际构建。

OpenMed,我们着手构建一个完整的流程,将蛋白质创意从概念推进到可表达的 DNA。这意味着三个阶段:预测蛋白质的 3D 结构,设计能折叠成该结构的氨基酸序列,以及优化底层 DNA 密码子,使蛋白质能在目标生物体中实际表达。在此过程中,我们进行了大量实验,比较了密码子优化的 transformer 架构,将最佳模型扩展到 25 个物种,并构建了将所有环节串联起来的工具。

这不是一个精心包装的成功故事。而是一份透明的记录,涵盖哪些方法有效、哪些结果出乎预料、哪些我们会以不同方式重做——附有可运行的代码和每一步的完整结果。


https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#1-what-we-built1. 我们构建了什么

该流程包含三个组件,分别对应第一部分所述蛋白质工程工作流的不同阶段。结构预测确定蛋白质的形状。序列设计确定产生该形状的氨基酸。密码子优化确定在活细胞中高效产生这些氨基酸的DNA

组件我们做了什么关键结果
蛋白质折叠对 30 条蛋白质链进行 ESMFold v1 预测平均 PTM:0.79,可运行的批处理流程
序列设计在支架 7K00 上使用 ProteinMPNN42% 序列恢复率
mRNA 优化在 25 万条 CDS 上训练多种 transformer 变体,随后扩展到 25 个物种的 38.1 万条序列CodonRoBERTa-large-v2:困惑度 4.10,CAI 0.40;多物种套件:4 个模型覆盖 25 个生物体(55 GPU 小时)

mRNA 优化是我们投入最多精力、也最有分享价值的部分。折叠和设计组件使用的是成熟工具(Meta 的 ESMFold、Baker 实验室的 ProteinMPNN,两者在第一部分中均有深入介绍)。密码子优化组件则完全由我们自主开发:新模型、新训练基础设施、新评估指标。

https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#2-the-architecture-exploration2. 架构探索

在第一部分中,我们调研了蛋白质 AI 领域,指出大多数生物语言模型都是 NLP 架构的适配。悬而未决的问题是哪种架构。BERT 变体主导了蛋白质建模(ESM-2、ProtTrans),但密码子序列具有不同于自然语言和氨基酸序列的统计特性。密码子是从 64 个符号的小字母表中抽取的三联体,具有强位置依赖性和物种特异性使用偏好。我们需要从第一性原理出发找出有效的方案。

核心问题:哪种 transformer 架构最适合密码子级别的语言建模?

这很重要,因为密码子优化对治疗性 mRNA、疫苗和重组蛋白生产至关重要。遗传密码是简并的:同一蛋白质可以由天文数字的不同 DNA 序列编码,但某些密码子排列的表达效率可高出 100 倍。例如,辉瑞-BioNTech 的新冠疫苗就针对人类表达进行了密码子优化。我们希望构建一个能直接从天然编码序列中学习这些偏好的模型,而非依赖手工制作的频率表。

https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#the-contenders候选方案

我们以小型 CodonBERT 基线(600 万参数,遵循 Sanofi 发表的架构)为起点,扩展到两个系列:ModernBERT——代表 NLP 社区最新的效率创新,以及 RoBERTa——Meta ESM 蛋白质语言模型背后的经证实的主力架构。

模型参数量架构假设
CodonBERT(基线)6MBERT-tiny(6 层)最小基线,建立性能下限
ModernBERT-base90MModernBERT(22 层,RoPE)现代创新:长上下文、高效注意力
CodonRoBERTa-base92MRoBERTa(12 层)经证实的 MLM 架构,与 ESM-2 同一家族
CodonRoBERTa-large312MRoBERTa(24 层)测试更多参数是否能改善密码子建模
CodonRoBERTa-large-v2312MRoBERTa(24 层,优化)相同架构,更优超参数

选择 RoBERTa 是刻意的。正如我们在第一部分中讨论的,Meta 的 ESM-2(ESMFold 的核心)本身就是训练在蛋白质序列上的 RoBERTa 变体。我们假设,学会氨基酸模式的同一家族架构,也可能学会密码子模式。ModernBERT 则是对照:2024 年的架构,配备 RoPE 嵌入、Flash Attention 和交替局部/全局注意力层,代表了自 2019 年 RoBERTa 发布以来 NLP 社区学到的所有成果。

https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#the-training-setup训练设置

为确保公平比较,每个模型都在相同数据上训练,采用相同的评估协议。我们使用了来自 E. coli RefSeq 的 250,000 条编码序列(CDS),涵盖染色体和完整组装访问号。这是一个干净、注释良好的数据集,其密码子使用模式在文献中有充分表征,为我们提供了验证用的基准真值。

我们的分词器将每个密码子映射为单个 token:64 个密码子加 5 个特殊 token(PAD、UNK、CLS、SEP、MASK),共 69 个 token 的词汇表。这是有意保持最小化的。与 NLP 中使用的 BPE 分词器不同——其子词边界是统计学习得到的——密码子边界是生物学定义的。每三个核苷酸编码一个氨基酸。我们的分词器尊重这一点。

训练在 4 块 A100 GPU(80GB)上进行,使用 FSDP 分片,根据模型大小运行 15,000 到 25,000 步。所有模型均使用掩码语言建模(MLM),掩码率 15%,与 ESM-2 用于蛋白质序列的目标函数相同。

https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#the-results结果

模型困惑度CAI Spearman同义恢复率状态
CodonRoBERTa-large-v24.100.4047.7%最佳整体
CodonRoBERTa-base4.010.2198.5%最佳效率
CodonRoBERTa-large4.010.0257.6%MLM 良好,生物信号弱
ModernBERT-base26.240.0708.5%表现不佳
CodonBERT(基线)17.18-0.6290.0%基线

结果是明确的:RoBERTa 在困惑度上优于 ModernBERT 6 倍(4.01 对 26.24)。这不是边际差异。尽管 ModernBERT 拥有现代注意力模式和高效架构,它在密码子序列上却根本性地逊于经典 RoBERTa 设计。

https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#what-we-learned我们的收获

1. 预训练 NLP 权重无法迁移到生物学

我们用 ModernBERT 公布的英语语言检查点初始化,期望学习到的注意力模式能提供有用的起点。结果并非如此。我们的最佳解释是:ModernBERT 在英语文本上的预训练灌输了干扰密码子统计学习的归纳偏置(子词频率分布、位置注意力模式)。随机初始化、纯粹在生物数据上训练的 RoBERTa 没有这种包袱。这与领域更广泛的观察一致:ESM-2 和 ProtTrans 都是从零开始在生物数据上训练,而非从 NLP 检查点微调。

2. 超参数调优解锁了生物学对齐

这是探索中最令人惊讶、也最具实践意义的发现。比较 CodonRoBERTa-large v1 和 v2:

版本困惑度CAI Spearman
v1(lr=1e-4)4.010.025
v2(lr=5e-5,更长预热)4.100.404

相同架构。相同数据。相同参数量。唯一区别:学习率减半,预热更长(2,000 步对 1,000 步)。然而 v2 的预测密码子似然度与真实生物密码子偏好的相关性提高了 16 倍,以密码子适应指数衡量。

困惑度实际上略微变差了(4.10 对 4.01),这意味着 v2 在预测确切的掩码密码子时准确性稍低。但它在预测生物学实际使用的密码子方面却好得多。更慢的训练节奏让模型形成了能捕捉真实生物学信号的表征,而非过拟合表面统计。

这对训练生物语言模型的人是至关重要的洞见:MLM 损失本身不足以衡量生物学意义

相似文章

通过大型模型的演化

OpenAI Blog

本论文证明了在代码上训练的大型语言模型可以显著增强遗传编程的变异算子,使得能够在 Sodarace 领域中生成数十万个功能性 Python 程序用于机器人设计,且无需预训练数据。该方法称为演化通过大型模型(ELM),将 LLM 与 MAP-Elites 相结合,为上下文特定的制品生成引导新的条件模型。

ProtSent:蛋白质句子转换器

arXiv cs.LG

本文介绍了 ProtSent,这是一个用于蛋白质语言模型的对比微调框架,能够提升嵌入质量,从而优化远程同源性检测和结构检索等下游任务。

强化递归语言模型(18分钟阅读)

TLDR AI

本文探讨了利用强化学习微调小型(4B)递归语言模型(RLM)从科学文档中选取证据,结果表明经过强化学习训练的4B模型在模型大小和成本仅为其一小部分的情况下,达到了与Claude Sonnet 4.6相当的性能。

Carbon:解码生命语言

Reddit r/LocalLLaMA

Hugging Face 发布了 Carbon,一个开放的 DNA 基础模型系列,在匹配 Evo2-7B 最先进性能的同时,速度快 275 倍,采用 6-mer 分词、分解损失和精选的基因组数据。