@lvwerra:我们正在发布Carbon:一个快得离谱的DNA模型。Carbon比第二好的模型快275倍。快到你可以处理……

X AI KOLs Following 模型

摘要

HuggingFace发布了Carbon,一个DNA模型,比之前的最先进模型(Evo2)快275倍,使得在单个GPU上不到两天就能处理整个人类基因组。该模型使用了独特的tokenizer,将序列分割成6碱基的块,同时保持单碱基分辨率,并附带一个交互式演示。

我们正在发布Carbon:一个快得离谱的DNA模型 Carbon比第二好的模型快275倍。快到可以在单个GPU上两天内处理完整个人类基因组。 以下是我们的诀窍: 在对DNA序列建模时,很多性能都取决于如何智能地对序列进行分词。BPE分词器会吃力,因为没有空格,而字符(在DNA中称为碱基)级别的分词器会因为过多的token而浪费大量计算。 Carbon使用了一个独特的分词器:我们将序列分成6个碱基的块,但在训练和推理过程中,我们可以使用单碱基分辨率。这类似于拥有单词token,但在字符级别解析它们。这一切都归功于DNA token的独特结构。 这种架构与分词器相结合,使得该模型在相同规模下比之前的最先进模型(Evo2)快275倍。 我们构建了一个交互式演示,让你可以探索模型如何生成DNA序列、研究基因结构、预测突变的影响、生成和折叠蛋白质,甚至重建生命树的部分内容。 https://huggingface.co/spaces/HuggingFaceBio/carbon-demo…
查看原文
查看缓存全文

缓存时间: 2026/05/20 02:25

我们正在发布Carbon:一个极快的DNA模型。

Carbon的速度比次优模型快275倍,快到可以在单个GPU上不到两天内处理整个人类基因组。

以下是我们使用的技巧:

在建模DNA序列时,很多性能取决于如何智能地对序列进行分词。BPE分词器难以处理,因为没有空格,而字符级(在DNA中称为碱基)分词器会因token过多而浪费大量计算。

Carbon采用独特的分词器:我们将序列分割成6个碱基的块,但在训练和推理过程中,可以以单碱基分辨率工作。这类似于拥有单词级token,但可以在字符级别解析它们。这一切都得益于DNA token的独特结构。

该架构与分词器相结合,使得模型在此规模下比之前的SoTA(Evo2)快275倍。

我们构建了一个交互式演示,让你可以探索模型如何生成DNA序列、研究基因结构、预测突变效应、生成和折叠蛋白质,甚至重建生命之树的部分内容。

https://huggingface.co/spaces/HuggingFaceBio/carbon-demo…


Carbon - 由HuggingFaceBio创建的Hugging Face空间

来源:https://huggingface.co/spaces/HuggingFaceBio/carbon-demo
正在从HF Docker仓库获取元数据…

相似文章

Carbon:解码生命语言

Reddit r/LocalLLaMA

Hugging Face 发布了 Carbon,一个开放的 DNA 基础模型系列,在匹配 Evo2-7B 最先进性能的同时,速度快 275 倍,采用 6-mer 分词、分解损失和精选的基因组数据。