Carbon：解码生命语言

Reddit r/LocalLLaMA 2026/05/19 16:54 模型

dna-foundation-model open-source bioinformatics genomic-model hugging-face efficiency

摘要

Hugging Face 发布了 Carbon，一个开放的 DNA 基础模型系列，在匹配 Evo2-7B 最先进性能的同时，速度快 275 倍，采用 6-mer 分词、分解损失和精选的基因组数据。

https://preview.redd.it/rajj11v7j42h1.png?width=1744&format=png&auto=webp&s=72381de22a9bac4b30a59498d549bb09df075df3 嘿，我是 Hugging Face 的 loubna。很高兴分享我们最新的发布：Carbon 🧬，一个开放的 DNA 基础模型家族。Carbon-3B 在匹配当前最先进模型 (Evo2-7B) 的同时，速度快 275 倍。我们借鉴了很多现代 LLM 训练和 SmolLM 工作的经验，但 DNA 不是语言。基因组是嘈杂的、冗余的，由进化塑造而非通信。因此我们调整了方案： **分词器。** 大多数基因组模型在核苷酸级别进行分词，这会大幅增加序列长度。BPE 是明显的 LLM 风格解决方案，但在 DNA 上表现不佳。我们使用确定性的 6-mer 标记（一个标记 = 6 个核苷酸）：序列缩短 6 倍，注意力机制更便宜。 **训练损失。** 使用 6-mer 标记时，交叉熵对 6 个核苷酸中猜对 5 个的预测与完全错误的预测评分相同。这在训练后期变得脆弱并产生损失尖峰。我们在训练中途切换到更灵活的分解损失 (FNS)。 **数据。** 基因组大多是稀疏、重复的背景。我们整理出分阶段的功能性 DNA + mRNA 混合物，每个比例通过消融实验选择。就像混合网络语料库，但用于生物学。 \- 技术报告：[https://github.com/huggingface/carbon/blob/main/tech-report.pdf](https://github.com/huggingface/carbon/blob/main/tech-report.pdf) \- 演示（为我们的 ML 朋友提供生物学入门）：[https://huggingface.co/spaces/HuggingFaceBio/carbon-demo](https://huggingface.co/spaces/HuggingFaceBio/carbon-demo) 很乐意在评论中回答问题 🤗

查看原文

Carbon：解码生命语言

相似文章

@lvwerra：我们正在发布Carbon：一个快得离谱的DNA模型。Carbon比第二好的模型快275倍。快到你可以处理……

@ClementDelangue: 生物学的未来不应被黑盒API所束缚，尤其是当涉及个人健康时。无论你是……

@adithya_s_k: 醒醒吧大家 Huggingface 刚刚开源了基因组基础模型

LDARNet：用于基因组建模的具有可学习分词的DNA自适应表示网络

用 OpenAI o1 解码遗传学

提交意见反馈