@MSFTResearch:Talos 旨在帮助解决基因组医学中的一个主要瓶颈:人工审查时间。这个开源系统恢复…

X AI KOLs Following 工具

摘要

Talos 是一个开源工具,用于自动化、迭代的基因组再分析,解决了人工审查时间的瓶颈,恢复了90%的诊断,同时每个患者仅显示1.3个候选变异。

Talos 旨在帮助解决基因组医学中的一个主要瓶颈:人工审查时间。这个开源系统恢复了90%的范围内诊断,同时每个患者仅显示1.3个候选变异供专家审查。https://t.co/tBnSoU1aXy https://t.co/Sd9HSVOug3
查看原文
查看缓存全文

缓存时间: 2026/06/24 16:04

Talos 的诞生是为了解决基因组医学中的一个重大瓶颈:人工审查时间。这个开源系统在恢复90%的范围内诊断结果的同时,仅向专家审查提交每个患者1.3个候选变异。https://t.co/tBnSoU1aXy https://t.co/Sd9HSVOug3


Talos 为近5000个未确诊病例带来持续基因组重分析

来源:https://www.microsoft.com/en-us/research/blog/talos-scaling-rare-disease-diagnosis-with-automated-iterative-genomic-reanalysis/ Talos | 四个白色线条图标,抽象绿色背景 | DNA 图标、盾牌图标、文档图标、日历图标## 概览

  • Talos 是一个开源工具,用于对罕见病基因组数据进行自动化、迭代式重分析。它能高效地重新检查已存储的测序数据,随着科学知识的更新,标记出具有新可行证据的变异。
  • Talos 调优以实现低假阳性率:在一个近1100名患者的验证集中,它恢复了90%的范围内诊断结果,同时每个患者仅标记出1.3个候选变异供专家审查。这对于使重分析在规模上可持续至关重要。
  • 在近5000名未确诊患者的前瞻性队列中部署后,Talos 提供了241个新诊断(额外5.1%的检出率)。从支持性证据公开到最终诊断之间平均仅相隔32天。
  • 在每月迭代周期中,分析师平均每200名患者只需审查一个新变异,表明频繁、系统的重分析可以可持续地运行。

为什么基因组重分析如此重要

基因组检测已经改变了罕见病的诊断,但即使有这一进步,超过一半的患者在首次检测后仍未确诊。这是因为我们对基因组的了解仍然不完整。研究人员每天都在了解更多关于特定基因的功能及其与疾病的关系。

然而,与大多数诊断性研究不同,基因组数据有一个独特的性质:它可以被无限期地存储和重新检查。由于我们对基因组的理解不断改进,仅仅在以后重新运行分析,就可能得出第一次无法实现的诊断。这是因为每年有数百个新的基因-疾病关联和数千个新的变异分类被报告。

对未确诊患者基因组进行重分析是解决方案;一项针对近9500名未确诊患者的荟萃分析发现,重分析在大约两年内将诊断检出率提高了约10%。然而,问题是当前的重分析绝大多数是手动的。它依赖于有动力的临床医生、稀缺的实验室工作人员和不一致的报销政策,因此绝大多数存储的基因组从未被重新检查,而数据在不断积累。自动化长期以来一直被提出作为解决方案,但自动机制的开发者必须在灵敏度、特异度、人类必须审查的候选变异数量以及分析重新运行的频率之间进行艰难的权衡。

Talos(在新标签页中打开)(https://github.com/populationgenomics/talos),由人口基因组学中心、澳大利亚基因组学、Broad Institute 和 Microsoft 合作开发,旨在解决这些权衡问题,并在国际规模上证明系统性重分析既可行又有价值。我们最近发表了一篇期刊文章(在新标签页中打开)(https://www.nature.com/articles/s41591-026-04477-5),详细描述了 Talos 的功能并评估了其在多个罕见病队列中的表现。

Talos 的工作原理

Talos 每次运行时,会根据最新的公共知识重新解释患者已有的变异调用。它依赖于两个持续更新的公共资源:PanelApp Australia(在新标签页中打开)(https://panelapp-aus.org/) 用于基因-疾病关系和遗传方式,以及ClinVar(在新标签页中打开)(https://www.be-md.ncbi.nlm.nih.gov/clinvar) 用于变异水平的致病性。然后它应用一种变异优先级排序算法,旨在筛选出最有可能符合 ACMG/AMP 临床报告标准的变异。

图1 - Talos 工作流,显示三个阶段:静态变异注释、动态注释与变异优先级排序/过滤,以及向临床团队报告。****图1 – Talos 概览。****Talos 分多个阶段运行,首先收集关于遗传变异及其携带者的不变信息,然后应用最新知识过滤和优先级排序可能具有临床相关性的变异,最后将这些变异连同支持性证据一起呈现给临床医生。**该流水线利用新发现的信息标记和过滤变异,然后利用家族结构(例如遗传方式和新生状态)以及(如果可用)患者的表型来优化候选集。Talos 可用于解释外显子组或基因组数据中的单核苷酸变异、小插入/缺失、拷贝数变异和大结构变异。

两个设计选择使 Talos 与众不同。首先,它刻意保守,优化为返回一小组高置信度变异,而不是一个长排序列表,因为在现实世界的基因组重分析中,限制因素是人工审查时间,而不是算法召回率。其次,在重复运行时,Talos 只返回自上一周期以来支持性证据发生变化的变异,使临床医生能够完全专注于真正新的发现。

经过专家手动分析验证

我们在两个已经过仔细手动分析的独立队列上对 Talos 进行了基准测试:澳大利亚急性护理基因组学(ACG)队列(危重婴儿和儿童)和美国基于 Rare Genomes Project (RGP) 的队列(之前检测结果无信息的家庭)。这总共包括 1,089 名先证者。

在 ACG 三人组上,Talos 恢复了 90% 的范围内诊断结果,每个家族返回的中位数仅为 1.3 个候选变异。它遗漏的诊断主要是其保守策略的直接结果,例如,缺乏 ClinVar 支持的隐性变异,而人类分析人员使用反式构型或功能研究对其进行了分类。

关键的是,Talos 在非常不同的 RGP 队列上保持了相同的操作点,这是一个之前临床检测结果无信息的家庭群体,先证者年龄最大为 82 岁。在 RGP 三人组上,它恢复了 87% 的范围内诊断结果(54 例中的 47 例),每个三人组的中位数为 1.3 个候选变异,显示了跨队列的泛化能力。

然后,我们与广泛使用的优先级排序工具 Exomiser 进行了头对头基准测试。Talos 在小型变异方面与其整体灵敏度相匹配,但操作点截然不同:Exomiser 对返回的列表进行排序并返回一个广泛的列表,而 Talos 返回一个短而高度特异性的列表。在配对比较中,当审查 Exomiser 的所有排序变异时,两个工具在统计上无法区分,但当审查限制在现实预算内——前五个(p = 0.017)或前一个(p < 0.0001)排序变异时,Talos 明显领先。值得注意的是,这两个工具呈现了不同的变异,因此它们是互补的,理想情况下应在诊断流程中一起使用。

装饰性图像和文本 (https://ai.azure.com/labs)

Azure AI Foundry Labs

一窥 AI 未来的潜在方向,这些来自 Microsoft Research 的实验性技术。

在国际规模上部署

我们最兴奋的实验是一个经过检测但未确诊的队列,包含 4,735 名个体,来自澳大利亚基因组学研究项目和一家诊断实验室。大多数患者是患有神经发育、心脏、肾脏和/或神经系统适应症的独生子女。

Talos 在 238 名个体中产生了 241 个新诊断——额外 5.1% 的检出率,并且每个可能的致病变异随后都得到了认可实验室的致病或可能致病确认。

这些诊断的来源说明了为什么重分析是一个如此强大的范式:

  • 32% 来自自原始检测以来发现的新基因-疾病关联,
  • 22% 来自新的变异水平证据(重新分类),
  • 45% 来自改进的过滤和分析——包括最初未检查的变异类型(如 CNV 和结构变异)、设置过窄的表型过滤器以及其他来源。

各临床领域的检出率一致(神经发育、心脏和肾脏适应症大约为 5-6%),但原因不同:新的基因关联和 CNV 主导了神经发育诊断,而变异重新分类推动了大多数心脏诊断。基因组数据优于外显子组(6.1% 对 4.8%),部分原因是涉及非编码诊断,例如 RNU4-2 和一个深内含子 MRPL39 变异。一个反复出现的主题是传统知识库的滞后:59% 的新基因-疾病诊断在重分析时尚未在 OMIM 中编目,这突显了利用像 PanelApp Australia 这样快速更新的资源的价值。

从一次性事件到持续项目

然后我们以 29 个月的每月迭代周期运行 Talos。大多数诊断(92%)在队列的第一次运行中出现,但迭代设计在两个层面上证明了其价值。首先,它展示了持续重分析的可扩展性:因为后续周期只返回新可行的证据,它们平均每 200 个案例只产生一个变异。其次,它展示了我们能够多快地从科学发现过渡到诊断:从新知识出现在公共数据库中到患者接受诊断之间平均仅 32 天,最快的案例在一天内完成。图 2 展示了三个示例患者的时间线,显示持续重分析如何能够在新的科学发现后的几周内为家庭带来答案。整个流水线运行成本足够低,可以持续运行:注释 1000 个基因组大约花费 11 美元,而每月一次的重分析运行每个队列只需几美分。

图2 - 通过持续重分析在进入项目或相关科学发现发表后几个月内解决的诊断难题示例。图2 – 三个示例患者的诊断历程。每个患者在基因测序后都等待多年才获得诊断。对于患者1,能够做出诊断的科学发现在其检测后一个月才出现,但直到第一次使用 Talos 重新分析其基因数据时才做出诊断。对于患者2和3,由于患者已经在重分析流程中,诊断在相关科学发现后的一个月内做出。## 展望未来

Talos 将基因组重分析从一个罕见、劳动密集的事件转变为一个持续的自动化程序,能够跟上科学发展的步伐。通过优化特异性,它尊重专家审查时间这一实际瓶颈;通过依赖像 PanelApp Australia 和 ClinVar 这样公开共享、频繁更新的资源,它将全球社区不断积累的知识转化为个体患者的诊断,通常在数周内完成。

我们相信我们已经建立了一个基础能力,我们很期待看到社区如何在此基础上进一步发展。特别是,随着用于理解和预测遗传变异后果的更高级 AI 模型的可用,我们期待在未解决的罕见病案例的重分析中利用它们。

Talos 是开源的,并且在像 Azure 这样的云环境中易于部署。我们的结果为希望向许多仍在寻找诊断的患者提供频繁、可扩展的重分析的卫生系统提供了一个实用蓝图。

相似文章

将零散证据转化为生命科学发现决策

YouTube AI Channels

OpenAI 在 Codex 中推出的全新生命科学模型“GPT-Rosalind”通过协调多个专业子代理,将遗传学、转录组学、安全性和知识产权数据融合为单一证据支持的决策,自主对哮喘药物靶点进行排序。

利用人工智能帮助医生诊断影响儿童的罕见遗传疾病

Reddit r/singularity

来自Boston Children's Hospital、Harvard和OpenAI的研究人员使用OpenAI o3 Deep Research reasoning模型重新分析了376例未解决的罕见疾病病例,经过专家审查和临床确认后,额外确诊了18例(确诊率4.8%)。这项发表在NEJM AI上的研究展示了人工智能辅助工作流程如何帮助专家在科学知识不断发展的情况下重新审视疑难病例。