基准测试生物学 AI 智能体:ML@B 与 LatchBio 的合作
摘要
加州大学伯克利分校机器学习团队(ML@B)与 LatchBio 合作,对其 AI 智能体在空间转录组工作流程中的性能进行了基准测试,评估其自动化复杂生物信息学任务的能力。
<p>现代生物学面临着一个数据问题,但并非你想象的那种。随着测序成本的降低和协议的标准化,从湿实验室实验中生成海量数据集已成为例行公事。瓶颈在于随后的步骤:处理、分析和解释这些数据。单次空间转录组运行(绘制物理组织空间中的基因表达图谱)可能产生数十万个细胞层面的观测结果,涉及数百个基因。从原始计数到生物学见解的分析流程涉及一系列漫长的预处理、降维和细胞类型注释步骤,每个步骤都有其独特的工具和故障模式。这是将 bench scientist(实验台科学家)与生物学见解分隔开来的鸿沟,也正是 LatchBio 致力于解决的问题。</p><p>今年秋天,加州大学伯克利分校机器学习团队(Machine Learning at Berkeley)的一支团队与总部位于旧金山的生物科技基础设施公司 <a href="https://latch.bio/">LatchBio</a> 展开了合作,其创始团队包括 ML@B 的校友。双方联手对 LatchBio 数据分析平台的智能体(agent)能力进行了压力测试和评估。在为期十周的时间里,我们的团队亲自操作 LatchBio 控制台智能体的首个版本,探究其处理真实空间转录组工作流程的能力,并开发了一套结构化的评估框架,以系统地衡量其性能。</p><div class="subscription-widget-wrap-editor" data-attrs="{"url":"https://mlberkeley.substack.com/subscribe?","text":"Subscribe","language":"en"}" data-component-name="SubscribeWidgetToDOM"><div class="subscription-widget show-subscribe"><div class="preamble"><p class="cta-caption">感谢阅读 ML@B 博客!免费订阅以接收新文章并支持我的工作。</p></div><form class="subscription-widget-subscribe"><input type="email" class="email-input" name="email" placeholder="输入您的邮箱…" tabindex="-1"><input type="submit" class="button primary" value="订阅"><div class="fake-input-wrapper"><div class="fake-input"></div><div class="fake-button"></div></div></form></div></div><p>需要预先说明的是,自我们参与以来,该智能体已有了显著改进。此处描述的功能和局限性反映的是我们进行基准测试的 v1 系统,而非产品的当前状态。</p><h2><strong>LatchBio 正在构建什么</strong></h2><p>LatchBio 提供了一个集成平台,弥合了生物信息学工具与需要使用该工具的科学家之间的差距。他们的平台支持来自 40 多种试剂盒和仪器的数据,旨在服务于从可能缺乏计算经验的 bench scientist 到依据分析输出做出决策的研发领导层等各类用户。他们已从 Lux Capital、General Catalyst 和 Caffeinated Capital 等投资者处筹集了约 3280 万美元的资金。</p><p>他们当前工作的核心是一个围绕<strong>Latch Plots</strong> 构建的智能体控制台,这是一个类似 Jupyter notebook 的框架,用于自动化生物信息学数据整理中最耗时的部分。用户可以提示智能体完成离散的任务,例如数据摄入、计数矩阵构建、质量控制、转换、细胞分型和元数据协调。一旦收到提示,大语言模型(LLMs)将在沙盒环境中运行,编写并验证自己的代码,并生成带有思维链推理的报告。人类科学家(用户)在每个阶段审查并批准输出后,流程才会继续推进。</p><h2><strong>深入数据</strong></h2><p>在评估智能体之前,我们需要先自行了解数据。我们处理的绝大多数数据来自 10x Genomics 的空间转录组数据集,主要是 Xenium FFPE(甲醛固定石蜡包埋)人类乳腺癌样本,同一目录中还混合了一些 Visium 数据。Xenium 是一种原位转录组平台,针对数百个基因的目标面板提供亚细胞分辨率的基因表达测量,而 Visium 则以 spot-level(点级)分辨率捕获全转录组数据。两者均为空间解析,但在基因面板大小、分辨率、文件结构以及适合每种情况的分析方法上存在显著差异。</p><p>我们花了大量时间阅读相关文献,特别是 10x Genomics 的论文<a href="https://www.nature.com/articles/s41467-023-43458-x"> </a><em><a href="https://www.nature.com/articles/s41467-023-43458-x">《使用整合的单细胞、空间和原位分析对肿瘤微环境进行高分辨率映射》</a></em>,以确立这些数据集的正确分析方法。我们希望从基因组学家的角度来审视智能体,了解良好结果应有的样子,而不仅仅是要求智能体复现已知的图表。</p><p>典型的 Xenium 乳腺癌数据集可能包含约 167,000 个细胞,涉及约 541 个基因的面板。在 Scanpy 等工具中的标准分析工作流程包括质量控制过滤(移除检测到基因过少或总计数过少的细胞)、文库大小标准化、对数转换、主成分分析(PCA)降维、邻域图构建、Leiden 聚类以及用于可视化的 UMAP 嵌入。在下游,你会运行差异表达分析以查找每个集群的标志基因,并尝试基于已知标志基因面板进行细胞类型注释。这些步骤中的每一步都有对结果产生实质性影响的参数——聚类分辨率、邻居数量、差异表达测试的选择——如果设置错误,可能会产生预处理的人为产物集群,而非真实生物学的反映。
相似文章
@OkhayIea: 每个人都在竞相构建“AI科学家”。因此我们提出了一个直白的问题:当今最好的编码代理能打败公开发表的…
介绍了NatureBench,这是一个跨学科基准测试,包含来自Nature论文的90个任务,用于测试AI编码代理。研究发现,最好的代理(Claude Opus 4.7)仅在17.8%的任务上超越了现有最佳水平,而且其成功往往是通过将科学简化为监督式机器学习,而非真正的发现来实现的。
跨尺度科学挑战的AI智能体基准测试
介绍SciAgentArena,一个约200个任务的基准测试,用于评估真实科学研究中的AI智能体。发现智能体在明确指定的数据分析工作流程中表现有效,但在产生新颖见解和开放式探索方面存在困难。
神经数据不再无聊:代理型AI在数据复用中的基准测试
本文对代理型AI系统在加载、理解和重新格式化碎片化的神经科学数据任务上进行基准测试,发现尽管代理在子任务上表现良好,但很少能实现完全无错误的端到端解决方案,人工监督仍然必要。
MLS-Bench:对 AI 系统在构建更优 AI 方面能力的全面与严格评估
本文介绍了 MLS-Bench,这是一个旨在评估 AI 系统能否发明具有通用性和可扩展性的机器学习方法,而非仅仅进行工程调优的基准测试。
技能增强型AI代理在医学研究分析中的应用:一项NSCLC转录组生物标志物任务中的探索性多模型人类评估
本探索性研究在NSCLC生物标志物任务中使用多模型人类评估,评估将AI代理与医学研究技能包相结合是否能提高转录组研究分析输出的质量(与原生AI相比)。结果显示有方向性但无统计显著性的改善,强调了进行更大规模、更稳健评估的必要性。