Carbon:解码生命语言

Reddit r/LocalLLaMA 模型

摘要

Hugging Face 发布了 Carbon,一个开放的 DNA 基础模型系列,在匹配 Evo2-7B 最先进性能的同时,速度快 275 倍,采用 6-mer 分词、分解损失和精选的基因组数据。

https://preview.redd.it/rajj11v7j42h1.png?width=1744&format=png&auto=webp&s=72381de22a9bac4b30a59498d549bb09df075df3 嘿,我是 Hugging Face 的 loubna。很高兴分享我们最新的发布:Carbon 🧬,一个开放的 DNA 基础模型家族。Carbon-3B 在匹配当前最先进模型 (Evo2-7B) 的同时,速度快 275 倍。我们借鉴了很多现代 LLM 训练和 SmolLM 工作的经验,但 DNA 不是语言。基因组是嘈杂的、冗余的,由进化塑造而非通信。因此我们调整了方案: **分词器。** 大多数基因组模型在核苷酸级别进行分词,这会大幅增加序列长度。BPE 是明显的 LLM 风格解决方案,但在 DNA 上表现不佳。我们使用确定性的 6-mer 标记(一个标记 = 6 个核苷酸):序列缩短 6 倍,注意力机制更便宜。 **训练损失。** 使用 6-mer 标记时,交叉熵对 6 个核苷酸中猜对 5 个的预测与完全错误的预测评分相同。这在训练后期变得脆弱并产生损失尖峰。我们在训练中途切换到更灵活的分解损失 (FNS)。 **数据。** 基因组大多是稀疏、重复的背景。我们整理出分阶段的功能性 DNA + mRNA 混合物,每个比例通过消融实验选择。就像混合网络语料库,但用于生物学。 \- 技术报告:[https://github.com/huggingface/carbon/blob/main/tech-report.pdf](https://github.com/huggingface/carbon/blob/main/tech-report.pdf) \- 演示(为我们的 ML 朋友提供生物学入门):[https://huggingface.co/spaces/HuggingFaceBio/carbon-demo](https://huggingface.co/spaces/HuggingFaceBio/carbon-demo) 很乐意在评论中回答问题 🤗
查看原文

相似文章

LDARNet:用于基因组建模的具有可学习分词的DNA自适应表示网络

arXiv cs.CL

LDARNet 是一个拥有1.2亿参数的层次化基因组基础模型,引入了可学习的自适应分词机制(灵感来源于 H-Net 的动态分块),用于DNA序列的掩码语言建模。该模型在5项组蛋白修饰任务上取得了最先进的结果,并在多项基因组基准测试中超越了参数量多达其20倍的模型。其学习到的分词边界与启动子motif和剪接位点等生物学特征高度吻合。

用 OpenAI o1 解码遗传学

OpenAI Blog

# 用 OpenAI o1 解码遗传学 来源: [https://openai.com/index/o1-genetics/](https://openai.com/index/o1-genetics/) 2024年9月12日 ChatGPT ## Catherine Brownstein: OpenAI o1 与遗传学 认识一下 OpenAI o1——新系列 AI 模型,设计用于在响应前花更多时间思考。这个新系列 AI 模型能够推理复杂任务,并在科学、编码和数学方面解决比之前模型更难的问题。