@lvwerra:我们正在发布Carbon:一个快得离谱的DNA模型。Carbon比第二好的模型快275倍。快到你可以处理……
摘要
HuggingFace发布了Carbon,一个DNA模型,比之前的最先进模型(Evo2)快275倍,使得在单个GPU上不到两天就能处理整个人类基因组。该模型使用了独特的tokenizer,将序列分割成6碱基的块,同时保持单碱基分辨率,并附带一个交互式演示。
查看缓存全文
缓存时间: 2026/05/20 02:25
我们正在发布Carbon:一个极快的DNA模型。
Carbon的速度比次优模型快275倍,快到可以在单个GPU上不到两天内处理整个人类基因组。
以下是我们使用的技巧:
在建模DNA序列时,很多性能取决于如何智能地对序列进行分词。BPE分词器难以处理,因为没有空格,而字符级(在DNA中称为碱基)分词器会因token过多而浪费大量计算。
Carbon采用独特的分词器:我们将序列分割成6个碱基的块,但在训练和推理过程中,可以以单碱基分辨率工作。这类似于拥有单词级token,但可以在字符级别解析它们。这一切都得益于DNA token的独特结构。
该架构与分词器相结合,使得模型在此规模下比之前的SoTA(Evo2)快275倍。
我们构建了一个交互式演示,让你可以探索模型如何生成DNA序列、研究基因结构、预测突变效应、生成和折叠蛋白质,甚至重建生命之树的部分内容。
https://huggingface.co/spaces/HuggingFaceBio/carbon-demo…
Carbon - 由HuggingFaceBio创建的Hugging Face空间
来源:https://huggingface.co/spaces/HuggingFaceBio/carbon-demo
正在从HF Docker仓库获取元数据…
相似文章
Carbon:解码生命语言
Hugging Face 发布了 Carbon,一个开放的 DNA 基础模型系列,在匹配 Evo2-7B 最先进性能的同时,速度快 275 倍,采用 6-mer 分词、分解损失和精选的基因组数据。
@adithya_s_k: 醒醒吧大家 Huggingface 刚刚开源了基因组基础模型
Huggingface 开源了基因组基础模型,包括 Carbon,一个 DNA 模型,其速度比次优模型快 275 倍,并且可以在单个 GPU 上不到两天内处理整个人类基因组。
@ClementDelangue: 生物学的未来不应被黑盒API所束缚,尤其是当涉及个人健康时。无论你是……
Hugging Face 发布 Carbon,一个开源DNA基础模型,比同类模型快275倍,可在单个GPU上本地处理整个基因组。
@draecomino: Cerebras 创下新纪录:万亿参数模型,每秒 1000 个 token
Cerebras 宣布,在企业试用中,其运行万亿参数模型 Kimi K2.6 的速度约为每秒 1000 个 token,并声称这是 Artificial Analysis 有史以来测得的最快前沿模型性能。
@TeksEdge:哇!全新开源计算机使用模型在单个 DGX Spark 上于 LLM 排行榜展现强劲本地性能!这…
H 公司发布了 Holo-3.1-35B-A3B-NVFP4,一款开源计算机使用模型,在单个 DGX Spark 节点上可实现每秒高达 195 个 token 的推理速度,性能超越 Qwen3.5-397B 和 Kimi-K2.5 等更大模型。