标签
GeneBench-Pro 是 OpenAI 推出的一项全面基准测试,旨在评估人工智能模型在复杂基因组学任务上的表现,包括体细胞肿瘤学、功能基因组学以及临床携带者筛查。
SP-Mind是一个自主AI智能体,统一了空间蛋白质组学分析流程,将自然语言查询转换为端到端的分析工作流,无需微调,并在新的SP-Bench基准测试中取得了最先进的性能。
Arc Institute推出了Proto,一种用于生成生物学的高级编程语言,允许通过代码或自然语言AI提示来编程蛋白质、DNA和RNA系统。
对Transformer架构在大型语言模型之外广泛影响的反思,包括对语言学、遗传学和因果建模的潜在影响,并将其意义与哈伯-博世法相提并论。
APCyc是一个靶点感知的生成框架,通过显式建模环化模式并利用贝叶斯后验引导,设计具有可控理化性质的环肽。
LDARNet 是一个拥有1.2亿参数的层次化基因组基础模型,引入了可学习的自适应分词机制(灵感来源于 H-Net 的动态分块),用于DNA序列的掩码语言建模。该模型在5项组蛋白修饰任务上取得了最先进的结果,并在多项基因组基准测试中超越了参数量多达其20倍的模型。其学习到的分词边界与启动子motif和剪接位点等生物学特征高度吻合。
GENEB 是一个大规模诊断基准,在统一的探测协议下,跨 13 个功能类别的 100 项任务对 40 个基因组基础模型进行评估。研究结果揭示了综合排行榜的不稳定性,以及架构匹配度往往比模型规模更具决定性影响。该工作旨在解决基因组机器学习领域评估体系碎片化的问题,类似于 MTEB 在 NLP 领域所做的工作。
BioManus 是一个 MCP 原生生物医学智能体系统,它采用基于图脚手架的规划方式,对结构化生物学能力进行调度,而非依赖扁平化的基于提示的工具检索,在生物医学基准测试中实现了更优的上下文效率与执行精度。该系统引入了 BioinfoMCP 编译器,用于标准化异构生物信息学工具,并将其组织为类型化异构 MCP 图,以支持可扩展的推理能力。
Google DeepMind 已开源 Science Skills,这是一套针对基因组学、结构生物学和化学信息学等科研任务的智能体技能集合,旨在以科学依据和更高的令牌效率加速智能体工作流程。
CellBRIDGE是一种新方法,通过引入配体-受体相互作用成本来模拟细胞间通讯,增强了对scRNA-seq轨迹推断的最优传输,改进了对齐并实现了可解释的计算机模拟扰动。
本文介绍了BioConCal,一种监督评分器,它利用推理时的面板和候选特征对LLM面板浮现的生物医学实体候选进行排序,在策展人筛选方面显著优于原始一致性。
一条推文宣布创建了细胞图谱图谱集(Atlas of Cell Atlases),这是一项细胞生物学数据资源,代码将在后续发布。
ProtoCol将后期交互检索应用于蛋白质同源搜索,将蛋白质表示为残基嵌入集,并使用MaxSim进行评分,在远程同源基准上优于池化方法和基于比对的方法。
TaxDistill提出了一种知识蒸馏框架,使用拥有5亿参数的基因组基础模型(GenomeOcean)作为教师模型,通过减少相似性搜索工具带来的标签噪声来改进宏基因组分类注释,在CAMI2数据集上实现了显著的F1分数提升。
GitHub 上一个名为 scientific-agent-skills 的仓库收录了138个科学研究工具的Agent Skill,覆盖生物信息、药物发现、临床数据库等领域,支持一行命令集成到AI代理中,提供精准的API调用方式。
本文识别了现有抗体设计方法中的三种失败模式(抗原盲区、词汇崩溃、收敛到边缘分布),并提出 AgForce,一种使用图神经网络和混合密度网络的新型编码器-解码器架构,在 Chimera-Bench 基准测试上实现了最先进的结合质量和序列恢复。
A comprehensive open-source collection of 138 scientific agent skills that transform AI coding assistants like Claude Code and Codex into AI scientists, covering biology, chemistry, medicine, and more, with integration of over 100 scientific databases and specialized Python packages.
Rosalind 是一款基于Rust的确定性基因组学引擎,设计为以O(√t)内存运行全基因组流程,使得在笔记本电脑和边缘设备上进行生物信息学分析成为可能。
Google DeepMind 推出了 Science Skills 工具包,该工具集成了包括 UniProt 和 AlphaFold 数据库在内的 30 多个主要生命科学数据源,旨在加速研究工作流程。
Hugging Face 发布 Carbon,一个开源DNA基础模型,比同类模型快275倍,可在单个GPU上本地处理整个基因组。