@lvwerra：我们正在发布Carbon：一个快得离谱的DNA模型。Carbon比第二好的模型快275倍。快到你可以处理……

X AI KOLs Following 2026/05/19 16:31 模型

dna-model bioinformatics tokenizer huggingface ai-model open-source genome

摘要

HuggingFace发布了Carbon，一个DNA模型，比之前的最先进模型（Evo2）快275倍，使得在单个GPU上不到两天就能处理整个人类基因组。该模型使用了独特的tokenizer，将序列分割成6碱基的块，同时保持单碱基分辨率，并附带一个交互式演示。

我们正在发布Carbon：一个快得离谱的DNA模型 Carbon比第二好的模型快275倍。快到可以在单个GPU上两天内处理完整个人类基因组。以下是我们的诀窍：在对DNA序列建模时，很多性能都取决于如何智能地对序列进行分词。BPE分词器会吃力，因为没有空格，而字符（在DNA中称为碱基）级别的分词器会因为过多的token而浪费大量计算。 Carbon使用了一个独特的分词器：我们将序列分成6个碱基的块，但在训练和推理过程中，我们可以使用单碱基分辨率。这类似于拥有单词token，但在字符级别解析它们。这一切都归功于DNA token的独特结构。这种架构与分词器相结合，使得该模型在相同规模下比之前的最先进模型（Evo2）快275倍。我们构建了一个交互式演示，让你可以探索模型如何生成DNA序列、研究基因结构、预测突变的影响、生成和折叠蛋白质，甚至重建生命树的部分内容。 https://huggingface.co/spaces/HuggingFaceBio/carbon-demo…

查看原文

查看缓存全文

缓存时间: 2026/05/20 02:25

我们正在发布Carbon：一个极快的DNA模型。

Carbon的速度比次优模型快275倍，快到可以在单个GPU上不到两天内处理整个人类基因组。

以下是我们使用的技巧：

在建模DNA序列时，很多性能取决于如何智能地对序列进行分词。BPE分词器难以处理，因为没有空格，而字符级（在DNA中称为碱基）分词器会因token过多而浪费大量计算。

Carbon采用独特的分词器：我们将序列分割成6个碱基的块，但在训练和推理过程中，可以以单碱基分辨率工作。这类似于拥有单词级token，但可以在字符级别解析它们。这一切都得益于DNA token的独特结构。

该架构与分词器相结合，使得模型在此规模下比之前的SoTA（Evo2）快275倍。

我们构建了一个交互式演示，让你可以探索模型如何生成DNA序列、研究基因结构、预测突变效应、生成和折叠蛋白质，甚至重建生命之树的部分内容。

https://huggingface.co/spaces/HuggingFaceBio/carbon-demo…

Carbon - 由HuggingFaceBio创建的Hugging Face空间

来源：https://huggingface.co/spaces/HuggingFaceBio/carbon-demo
正在从HF Docker仓库获取元数据…

@lvwerra：我们正在发布Carbon：一个快得离谱的DNA模型。Carbon比第二好的模型快275倍。快到你可以处理……

Carbon - 由HuggingFaceBio创建的Hugging Face空间

相似文章

Carbon：解码生命语言

@adithya_s_k: 醒醒吧大家 Huggingface 刚刚开源了基因组基础模型

@ClementDelangue: 生物学的未来不应被黑盒API所束缚，尤其是当涉及个人健康时。无论你是……

@draecomino: Cerebras 创下新纪录：万亿参数模型，每秒 1000 个 token

@TeksEdge：哇！全新开源计算机使用模型在单个 DGX Spark 上于 LLM 排行榜展现强劲本地性能！这…

提交意见反馈