标签
Hugging Face 发布了 Carbon,一个开放的 DNA 基础模型系列,在匹配 Evo2-7B 最先进性能的同时,速度快 275 倍,采用 6-mer 分词、分解损失和精选的基因组数据。
Huggingface 开源了基因组基础模型,包括 Carbon,一个 DNA 模型,其速度比次优模型快 275 倍,并且可以在单个 GPU 上不到两天内处理整个人类基因组。
HuggingFace发布了Carbon,一个DNA模型,比之前的最先进模型(Evo2)快275倍,使得在单个GPU上不到两天就能处理整个人类基因组。该模型使用了独特的tokenizer,将序列分割成6碱基的块,同时保持单碱基分辨率,并附带一个交互式演示。
这个GitHub仓库提供135个即用型科研AI技能,覆盖生物、化学、医学等领域,可一键集成到AI代理中,加速科研工作流。
介绍scShapeBench,一个用于高维单细胞数据形状检测的基准数据集,以及scReebTower,一种使用扩散几何和Reeb图将数据形状分类为聚类、轨迹、多分支和原型的基线方法。
本文提出了 SoftBlobGIN 框架,通过将蛋白质语言模型的表示投影到接触图上进行结构感知的消息传递,增强了其可解释性。该框架在酶分类和结合位点检测任务上展现出性能提升,同时提供了可审计的结构化解释。
本文提出了一种利用单细胞基础模型进行通用基因调控网络(GRN)推断的新范式,并引入了虚拟值扰动和梯度轨迹方法来提炼调控知识。
本文介绍了 Evo-PU,一种正无标签学习框架,通过利用进化突变过程对蛋白质序列数据中的幸存者偏差进行建模。作者证明,在预测流感、RSV 和 SARS-CoV-2 的蛋白质功能方面,Evo-PU 优于标准的正无标签方法和蛋白质语言模型。
本文介绍了 ProtSent,这是一个用于蛋白质语言模型的对比微调框架,能够提升嵌入质量,从而优化远程同源性检测和结构检索等下游任务。
本文提出了一种基于Transformer的模型,仅利用每日GPS运动轨迹对野生动物物种进行分类。在不同研究和区域的基准测试中,该模型在准确率方面优于LSTM和CNN。
本文介绍了 PlantMarkerBench,这是一个多物种基准测试,旨在评估语言模型从四个物种的科学文献中解读植物标记基因证据的能力。文章指出,尽管前沿模型在处理直接证据方面表现良好,但在处理功能和间接证据类型时仍面临困难。
作者描述了一个使用 Gemini Nano Pro、Tripo 和 Codex 生成 3D 生物结构的工作流,强调了 AI 在加速教育方面的潜力。
文章回顾了DeepMind在2021年开源AlphaFold的决策过程,赞扬了Demis Hassabis敢于承担风险并免费开放基础研究的领导风格,同时指出该举措虽未直接获利,但成功催生了估值20亿美元的Isomorphic Labs。
TD3B 是一种基于序列的生成框架,利用过渡导向离散扩散设计具有特定激动剂或拮抗剂行为的别构结合物。该论文引入了一种控制蛋白质状态方向性转变的方法,解决了基于静态结构的设计方法的局限性。
本文介绍了 GATHER,这是一种基于知识图谱的以汇聚为中心的检索方法,用于零样本细胞类型注释。与现有的 KG-RAG 基线方法相比,该方法提高了准确性并降低了大语言模型(LLM)的成本。
# 论文页面 - 单细胞CRISPR扰动的几何一致性揭示调控架构并预测细胞应激 来源:[https://huggingface.co/papers/2604.16642](https://huggingface.co/papers/2604.16642) ## 摘要 尽管基因组工程在序列层面已达成卓越精度,预测扰动后细胞将占据的转录组状态仍是未解难题。单细胞CRISPR筛选可测量细胞偏离未扰动状态的程度,但这一效应幅度忽略了一个根本问题:细胞是否协同移动?若一个扰动将细胞沿共同轨迹一致推进,而另一个将其分散到表达空间各处,即使幅度相同,结果也可能截然不同。
加州大学伯克利分校机器学习团队(ML@B)与 LatchBio 合作,对其 AI 智能体在空间转录组工作流程中的性能进行了基准测试,评估其自动化复杂生物信息学任务的能力。
本文推出轻量级交互工具 RGxEStat,采用混合效应模型解析基因-环境互作,为育种者提供无需复杂 SAS/R 编程的友好替代方案。
本文介绍了CodonRoBERTa的开发过程,这是一种在25个物种间进行训练的mRNA密码子优化语言模型,重点展示了一个包含蛋白质折叠和序列设计的经济高效流程。