以165美元在25个物种间训练mRNA语言模型

Hugging Face Blog 2026/03/31 08:23 模型

bioinformatics mRNA language-models computational-biology open-source hugging-face codon-optimization

摘要

本文介绍了CodonRoBERTa的开发过程，这是一种在25个物种间进行训练的mRNA密码子优化语言模型，重点展示了一个包含蛋白质折叠和序列设计的经济高效流程。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/05/08 09:13

以 165 美元跨 25 个物种训练 mRNA 语言模型

来源：https://huggingface.co/blog/OpenMed/training-mrna-models-25-species 返回文章列表 (https://huggingface.co/blog)

Maziyar Panahi 的头像 (https://huggingface.co/MaziyarPanahi)

- 第二部分：构建流程，从结构预测到密码子优化 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#part-ii-building-the-pipeline-from-structure-prediction-to-codon-optimization) - 1. 我们构建了什 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#1-what-we-built) - 2. 架构探索 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#2-the-architecture-exploration)- 候选方案 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#the-contenders) - 训练设置 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#the-training-setup) - 结果 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#the-results) - 我们的收获 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#what-we-learned) - 3. 流程 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#3-the-pipeline)- 3.1 使用 ESMFold 进行蛋白质折叠 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#31-protein-folding-with-esmfold) - 我们的结果：30 条蛋白质链 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#our-results-30-protein-chains) - 运行 ESMFold (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#running-esmfold) - 3.2 使用 ProteinMPNN 进行序列设计 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#32-sequence-design-with-proteinmpnn) - 我们的结果：支架 7K00 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#our-results-scaffold-7k00) - 3.3 mRNA 优化 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#33-mrna-optimization) - CodonRoBERTa：我们的最佳模型 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#codonroberta-our-best-model) - 评估：三个关键指标 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#evaluation-three-metrics-that-matter) - 运行评估 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#running-the-evaluations) - 最终排行榜 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#the-final-leaderboard) - 使用模型 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#using-the-model) - 4. 扩展到多物种 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#4-scaling-to-multi-species)- 数据工程挑战 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#the-data-engineering-challenge) - 分词创新 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#the-tokenization-innovation) - 训练通用基础模型 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#training-the-universal-base-model) - 物种特异性微调 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#species-specific-fine-tuning) - 完整模型套件 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#the-complete-model-suite) - 生产部署策略 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#production-deployment-strategy) - 基础设施与可复现性 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#infrastructure–reproducibility) - 这使能了什么 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#what-this-enables) - 数据一览 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#by-the-numbers) - 5. 端到端工作流 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#5-the-end-to-end-workflow) - 6. 现状与展望 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#6-where-this-stands-and-whats-next)- 领域概况 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#the-landscape) - 进行中：CodonJEPA (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#in-progress-codonjepa) - 路线图 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#roadmap) - 设置与需求 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#setup-and-requirements) - 7. 参考文献 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#7-references)- 关键论文 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#key-papers) - 模型与数据：即将推出 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#models-and-data-coming-soon) https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#part-ii-building-the-pipeline-from-structure-prediction-to-codon-optimization第二部分：构建流程，从结构预测到密码子优化

作者：OpenMed，面向医疗与生命科学的开源智能体 AI

太长不看：我们构建了一个端到端的蛋白质 AI 流程，涵盖结构预测、序列设计和密码子优化。在比较了多种用于密码子级别语言建模的 transformer 架构后，CodonRoBERTa-large-v2 以困惑度 4.10 和 Spearman CAI 相关性 0.40 脱颖而出，显著优于 ModernBERT。随后我们将模型扩展到 25 个物种，在 55 GPU 小时内训练了 4 个生产模型，并构建了一个物种条件化系统——这是其他开源项目所不具备的。完整结果、架构决策和可运行代码如下。

我们构建了什么 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#1-what-we-built)
架构探索 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#2-the-architecture-exploration)
流程 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#3-the-pipeline)- 3.1 蛋白质折叠 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#31-protein-folding-with-esmfold) - 3.2 序列设计 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#32-sequence-design-with-proteinmpnn) - 3.3 mRNA 优化 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#33-mrna-optimization)
扩展到多物种 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#4-scaling-to-multi-species)
端到端工作流 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#5-the-end-to-end-workflow)
现状与展望 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#6-where-this-stands-and-whats-next)
参考文献 (https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#7-references)

想象从一个治疗性蛋白质概念到合成就绪的密码子优化 DNA 序列，仅需一个下午。OpenMed 致力于构建这样的流程，本文档记录了从头到尾的完整过程。

在第一部分中，我们梳理了蛋白质 AI 的全景：驱动结构预测的架构、用于蛋白质设计的开源工具，以及从 AlphaFold 到 ESMFold 的模型生态系统。那是一次调研。这次是实际构建。

在 OpenMed，我们着手构建一个完整的流程，将蛋白质创意从概念推进到可表达的 DNA。这意味着三个阶段：预测蛋白质的 3D 结构，设计能折叠成该结构的氨基酸序列，以及优化底层 DNA 密码子，使蛋白质能在目标生物体中实际表达。在此过程中，我们进行了大量实验，比较了密码子优化的 transformer 架构，将最佳模型扩展到 25 个物种，并构建了将所有环节串联起来的工具。

这不是一个精心包装的成功故事。而是一份透明的记录，涵盖哪些方法有效、哪些结果出乎预料、哪些我们会以不同方式重做——附有可运行的代码和每一步的完整结果。

https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#1-what-we-built1. 我们构建了什么

该流程包含三个组件，分别对应第一部分所述蛋白质工程工作流的不同阶段。结构预测确定蛋白质的形状。序列设计确定产生该形状的氨基酸。密码子优化确定在活细胞中高效产生这些氨基酸的DNA。

组件	我们做了什么	关键结果
蛋白质折叠	对 30 条蛋白质链进行 ESMFold v1 预测	平均 PTM：0.79，可运行的批处理流程
序列设计	在支架 7K00 上使用 ProteinMPNN	42% 序列恢复率
mRNA 优化	在 25 万条 CDS 上训练多种 transformer 变体，随后扩展到 25 个物种的 38.1 万条序列	CodonRoBERTa-large-v2：困惑度 4.10，CAI 0.40；多物种套件：4 个模型覆盖 25 个生物体（55 GPU 小时）

mRNA 优化是我们投入最多精力、也最有分享价值的部分。折叠和设计组件使用的是成熟工具（Meta 的 ESMFold、Baker 实验室的 ProteinMPNN，两者在第一部分中均有深入介绍）。密码子优化组件则完全由我们自主开发：新模型、新训练基础设施、新评估指标。

https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#2-the-architecture-exploration2. 架构探索

在第一部分中，我们调研了蛋白质 AI 领域，指出大多数生物语言模型都是 NLP 架构的适配。悬而未决的问题是哪种架构。BERT 变体主导了蛋白质建模（ESM-2、ProtTrans），但密码子序列具有不同于自然语言和氨基酸序列的统计特性。密码子是从 64 个符号的小字母表中抽取的三联体，具有强位置依赖性和物种特异性使用偏好。我们需要从第一性原理出发找出有效的方案。

核心问题：哪种 transformer 架构最适合密码子级别的语言建模？

这很重要，因为密码子优化对治疗性 mRNA、疫苗和重组蛋白生产至关重要。遗传密码是简并的：同一蛋白质可以由天文数字的不同 DNA 序列编码，但某些密码子排列的表达效率可高出 100 倍。例如，辉瑞-BioNTech 的新冠疫苗就针对人类表达进行了密码子优化。我们希望构建一个能直接从天然编码序列中学习这些偏好的模型，而非依赖手工制作的频率表。

https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#the-contenders候选方案

我们以小型 CodonBERT 基线（600 万参数，遵循 Sanofi 发表的架构）为起点，扩展到两个系列：ModernBERT——代表 NLP 社区最新的效率创新，以及 RoBERTa——Meta ESM 蛋白质语言模型背后的经证实的主力架构。

模型	参数量	架构	假设
CodonBERT（基线）	6M	BERT-tiny（6 层）	最小基线，建立性能下限
ModernBERT-base	90M	ModernBERT（22 层，RoPE）	现代创新：长上下文、高效注意力
CodonRoBERTa-base	92M	RoBERTa（12 层）	经证实的 MLM 架构，与 ESM-2 同一家族
CodonRoBERTa-large	312M	RoBERTa（24 层）	测试更多参数是否能改善密码子建模
CodonRoBERTa-large-v2	312M	RoBERTa（24 层，优化）	相同架构，更优超参数

选择 RoBERTa 是刻意的。正如我们在第一部分中讨论的，Meta 的 ESM-2（ESMFold 的核心）本身就是训练在蛋白质序列上的 RoBERTa 变体。我们假设，学会氨基酸模式的同一家族架构，也可能学会密码子模式。ModernBERT 则是对照：2024 年的架构，配备 RoPE 嵌入、Flash Attention 和交替局部/全局注意力层，代表了自 2019 年 RoBERTa 发布以来 NLP 社区学到的所有成果。

https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#the-training-setup训练设置

为确保公平比较，每个模型都在相同数据上训练，采用相同的评估协议。我们使用了来自 E. coli RefSeq 的 250,000 条编码序列（CDS），涵盖染色体和完整组装访问号。这是一个干净、注释良好的数据集，其密码子使用模式在文献中有充分表征，为我们提供了验证用的基准真值。

我们的分词器将每个密码子映射为单个 token：64 个密码子加 5 个特殊 token（PAD、UNK、CLS、SEP、MASK），共 69 个 token 的词汇表。这是有意保持最小化的。与 NLP 中使用的 BPE 分词器不同——其子词边界是统计学习得到的——密码子边界是生物学定义的。每三个核苷酸编码一个氨基酸。我们的分词器尊重这一点。

训练在 4 块 A100 GPU（80GB）上进行，使用 FSDP 分片，根据模型大小运行 15,000 到 25,000 步。所有模型均使用掩码语言建模（MLM），掩码率 15%，与 ESM-2 用于蛋白质序列的目标函数相同。

https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#the-results结果

模型	困惑度	CAI Spearman	同义恢复率	状态
CodonRoBERTa-large-v2	4.10	0.404	7.7%	最佳整体
CodonRoBERTa-base	4.01	0.219	8.5%	最佳效率
CodonRoBERTa-large	4.01	0.025	7.6%	MLM 良好，生物信号弱
ModernBERT-base	26.24	0.070	8.5%	表现不佳
CodonBERT（基线）	17.18	-0.629	0.0%	基线

结果是明确的：RoBERTa 在困惑度上优于 ModernBERT 6 倍（4.01 对 26.24）。这不是边际差异。尽管 ModernBERT 拥有现代注意力模式和高效架构，它在密码子序列上却根本性地逊于经典 RoBERTa 设计。

https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#what-we-learned我们的收获

1. 预训练 NLP 权重无法迁移到生物学

我们用 ModernBERT 公布的英语语言检查点初始化，期望学习到的注意力模式能提供有用的起点。结果并非如此。我们的最佳解释是：ModernBERT 在英语文本上的预训练灌输了干扰密码子统计学习的归纳偏置（子词频率分布、位置注意力模式）。随机初始化、纯粹在生物数据上训练的 RoBERTa 没有这种包袱。这与领域更广泛的观察一致：ESM-2 和 ProtTrans 都是从零开始在生物数据上训练，而非从 NLP 检查点微调。

2. 超参数调优解锁了生物学对齐

这是探索中最令人惊讶、也最具实践意义的发现。比较 CodonRoBERTa-large v1 和 v2：

版本	困惑度	CAI Spearman
v1（lr=1e-4）	4.01	0.025
v2（lr=5e-5，更长预热）	4.10	0.404

相同架构。相同数据。相同参数量。唯一区别：学习率减半，预热更长（2,000 步对 1,000 步）。然而 v2 的预测密码子似然度与真实生物密码子偏好的相关性提高了 16 倍，以密码子适应指数衡量。

困惑度实际上略微变差了（4.10 对 4.01），这意味着 v2 在预测确切的掩码密码子时准确性稍低。但它在预测生物学实际使用的密码子方面却好得多。更慢的训练节奏让模型形成了能捕捉真实生物学信号的表征，而非过拟合表面统计。

这对训练生物语言模型的人是至关重要的洞见：MLM 损失本身不足以衡量生物学意义。

以165美元在25个物种间训练mRNA语言模型

以 165 美元跨 25 个物种训练 mRNA 语言模型

https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#1-what-we-built1. 我们构建了什么

https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#2-the-architecture-exploration2. 架构探索

https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#the-contenders候选方案

https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#the-training-setup训练设置

https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#the-results结果

https://huggingface.co/blog/OpenMed/training-mrna-models-25-species#what-we-learned我们的收获

相似文章

通过大型模型的演化

ProtSent：蛋白质句子转换器

@0xshimei: https://x.com/0xshimei/status/2053088751862288846

强化递归语言模型（18分钟阅读）

Carbon：解码生命语言

提交意见反馈