bioinformatics

#bioinformatics

Carbon：解码生命语言

Reddit r/LocalLLaMA ↗ · 2026-05-19

Hugging Face 发布了 Carbon，一个开放的 DNA 基础模型系列，在匹配 Evo2-7B 最先进性能的同时，速度快 275 倍，采用 6-mer 分词、分解损失和精选的基因组数据。

0 人收藏 0 人点赞

#bioinformatics

@adithya_s_k: 醒醒吧大家 Huggingface 刚刚开源了基因组基础模型

X AI KOLs Following ↗ · 2026-05-19 缓存

Huggingface 开源了基因组基础模型，包括 Carbon，一个 DNA 模型，其速度比次优模型快 275 倍，并且可以在单个 GPU 上不到两天内处理整个人类基因组。

0 人收藏 0 人点赞

#bioinformatics

@lvwerra：我们正在发布Carbon：一个快得离谱的DNA模型。Carbon比第二好的模型快275倍。快到你可以处理……

X AI KOLs Following ↗ · 2026-05-19 缓存

HuggingFace发布了Carbon，一个DNA模型，比之前的最先进模型（Evo2）快275倍，使得在单个GPU上不到两天就能处理整个人类基因组。该模型使用了独特的tokenizer，将序列分割成6碱基的块，同时保持单碱基分辨率，并附带一个交互式演示。

0 人收藏 0 人点赞

#bioinformatics

@daweifs: 一行命令，把AI变成你的专属科研科学家！科研人福音来了！这个GitHub神器直接给AI装上133个专业科研技能，生信、药物发现、临床、多组学全覆盖，效率直接起飞。它到底有多强？ 1、133个开箱即用技能，覆盖生物/化学/医学/材料全领…

X AI KOLs Timeline ↗ · 2026-05-16 缓存

这个GitHub仓库提供135个即用型科研AI技能，覆盖生物、化学、医学等领域，可一键集成到AI代理中，加速科研工作流。

0 人收藏 0 人点赞

#bioinformatics

scShapeBench: 从高维scRNAseq数据中发现几何结构

arXiv cs.LG ↗ · 2026-05-14 缓存

介绍scShapeBench，一个用于高维单细胞数据形状检测的基准数据集，以及scReebTower，一种使用扩散几何和Reeb图将数据形状分类为聚类、轨迹、多分支和原型的基线方法。

0 人收藏 0 人点赞

#bioinformatics

通过可微图划分对蛋白质语言模型表示的结构解释

arXiv cs.LG ↗ · 2026-05-13 缓存

本文提出了 SoftBlobGIN 框架，通过将蛋白质语言模型的表示投影到接触图上进行结构感知的消息传递，增强了其可解释性。该框架在酶分类和结合位点检测任务上展现出性能提升，同时提供了可审计的结构化解释。

0 人收藏 0 人点赞

#bioinformatics

迈向通用基因调控网络推断：在单细胞基础模型中解锁可泛化的调控知识

arXiv cs.LG ↗ · 2026-05-12 缓存

本文提出了一种利用单细胞基础模型进行通用基因调控网络（GRN）推断的新范式，并引入了虚拟值扰动和梯度轨迹方法来提炼调控知识。

0 人收藏 0 人点赞

#bioinformatics

通过建模幸存者偏差提升蛋白质功能预测

arXiv cs.LG ↗ · 2026-05-11 缓存

本文介绍了 Evo-PU，一种正无标签学习框架，通过利用进化突变过程对蛋白质序列数据中的幸存者偏差进行建模。作者证明，在预测流感、RSV 和 SARS-CoV-2 的蛋白质功能方面，Evo-PU 优于标准的正无标签方法和蛋白质语言模型。

0 人收藏 0 人点赞

#bioinformatics

ProtSent：蛋白质句子转换器

arXiv cs.LG ↗ · 2026-05-11 缓存

本文介绍了 ProtSent，这是一个用于蛋白质语言模型的对比微调框架，能够提升嵌入质量，从而优化远程同源性检测和结构检索等下游任务。

0 人收藏 0 人点赞

#bioinformatics

基于Transformer的利用每日运动轨迹进行野生动物物种分类

arXiv cs.LG ↗ · 2026-05-11 缓存

本文提出了一种基于Transformer的模型，仅利用每日GPS运动轨迹对野生动物物种进行分类。在不同研究和区域的基准测试中，该模型在准确率方面优于LSTM和CNN。

0 人收藏 0 人点赞

#bioinformatics

PlantMarkerBench：一个基于证据的植物标记基因推理多物种基准测试

Hugging Face Daily Papers ↗ · 2026-05-11 缓存

本文介绍了 PlantMarkerBench，这是一个多物种基准测试，旨在评估语言模型从四个物种的科学文献中解读植物标记基因证据的能力。文章指出，尽管前沿模型在处理直接证据方面表现良好，但在处理功能和间接证据类型时仍面临困难。

0 人收藏 0 人点赞

#bioinformatics

@omarsar0: 这简直是令人叹为观止！我无法抗拒去复现这个工作流以生成 3D 生物结构。在一…

X AI KOLs Following ↗ · 2026-05-10

作者描述了一个使用 Gemini Nano Pro、Tripo 和 Codex 生成 3D 生物结构的工作流，强调了 AI 在加速教育方面的潜力。

0 人收藏 0 人点赞

#bioinformatics

@AYi_AInotes: Damn，看完DeepMind这段纪录片，我鸡皮疙瘩都起来了没有激动人心的演讲，也没有盛大的发布会，就是一个普通的会议室，几个工程师围着桌子，告诉Demis：我们现在可以在一个月内，预测出所有已知的10到20亿个蛋白质序列。 Dem…

X AI KOLs Timeline ↗ · 2026-05-10

文章回顾了DeepMind在2021年开源AlphaFold的决策过程，赞扬了Demis Hassabis敢于承担风险并免费开放基础研究的领导风格，同时指出该举措虽未直接获利，但成功催生了估值20亿美元的Isomorphic Labs。

0 人收藏 0 人点赞

#bioinformatics

TD3B：用于别构结合物生成的过渡导向离散扩散

Hugging Face Daily Papers ↗ · 2026-05-10 缓存

TD3B 是一种基于序列的生成框架，利用过渡导向离散扩散设计具有特定激动剂或拮抗剂行为的别构结合物。该论文引入了一种控制蛋白质状态方向性转变的方法，解决了基于静态结构的设计方法的局限性。

0 人收藏 0 人点赞

#bioinformatics

氨基酸分类

Hacker News Top ↗ · 2026-05-08

本内容涵盖氨基酸的分类方法，可能涉及计算或生物学分析技术。

0 人收藏 0 人点赞

#bioinformatics

GATHER：面向零样本细胞类型注释的以汇聚为中心的超实体检索

arXiv cs.CL ↗ · 2026-05-08 缓存

本文介绍了 GATHER，这是一种基于知识图谱的以汇聚为中心的检索方法，用于零样本细胞类型注释。与现有的 KG-RAG 基线方法相比，该方法提高了准确性并降低了大语言模型（LLM）的成本。

0 人收藏 0 人点赞

#bioinformatics

单细胞CRISPR扰动的几何一致性揭示调控架构并预测细胞应激

Hugging Face Daily Papers ↗ · 2026-04-17 缓存

# 论文页面 - 单细胞CRISPR扰动的几何一致性揭示调控架构并预测细胞应激来源：[https://huggingface.co/papers/2604.16642](https://huggingface.co/papers/2604.16642) ## 摘要尽管基因组工程在序列层面已达成卓越精度，预测扰动后细胞将占据的转录组状态仍是未解难题。单细胞CRISPR筛选可测量细胞偏离未扰动状态的程度，但这一效应幅度忽略了一个根本问题：细胞是否协同移动？若一个扰动将细胞沿共同轨迹一致推进，而另一个将其分散到表达空间各处，即使幅度相同，结果也可能截然不同。

0 人收藏 0 人点赞

#bioinformatics