基准测试生物学 AI 智能体：ML@B 与 LatchBio 的合作

ML at Berkeley 2026/04/15 00:48 工具

bioinformatics ai-agents spatial-transcriptomics machine-learning healthcare-tech data-analysis benchmarking

摘要

加州大学伯克利分校机器学习团队（ML@B）与 LatchBio 合作，对其 AI 智能体在空间转录组工作流程中的性能进行了基准测试，评估其自动化复杂生物信息学任务的能力。

<p>现代生物学面临着一个数据问题，但并非你想象的那种。随着测序成本的降低和协议的标准化，从湿实验室实验中生成海量数据集已成为例行公事。瓶颈在于随后的步骤：处理、分析和解释这些数据。单次空间转录组运行（绘制物理组织空间中的基因表达图谱）可能产生数十万个细胞层面的观测结果，涉及数百个基因。从原始计数到生物学见解的分析流程涉及一系列漫长的预处理、降维和细胞类型注释步骤，每个步骤都有其独特的工具和故障模式。这是将 bench scientist（实验台科学家）与生物学见解分隔开来的鸿沟，也正是 LatchBio 致力于解决的问题。</p><p>今年秋天，加州大学伯克利分校机器学习团队（Machine Learning at Berkeley）的一支团队与总部位于旧金山的生物科技基础设施公司 <a href="https://latch.bio/">LatchBio</a> 展开了合作，其创始团队包括 ML@B 的校友。双方联手对 LatchBio 数据分析平台的智能体（agent）能力进行了压力测试和评估。在为期十周的时间里，我们的团队亲自操作 LatchBio 控制台智能体的首个版本，探究其处理真实空间转录组工作流程的能力，并开发了一套结构化的评估框架，以系统地衡量其性能。</p><div class="subscription-widget-wrap-editor" data-attrs="{"url":"https://mlberkeley.substack.com/subscribe?","text":"Subscribe","language":"en"}" data-component-name="SubscribeWidgetToDOM"><div class="subscription-widget show-subscribe"><div class="preamble"><p class="cta-caption">感谢阅读 ML@B 博客！免费订阅以接收新文章并支持我的工作。</p></div><form class="subscription-widget-subscribe"><input type="email" class="email-input" name="email" placeholder="输入您的邮箱…" tabindex="-1"><input type="submit" class="button primary" value="订阅"><div class="fake-input-wrapper"><div class="fake-input"></div><div class="fake-button"></div></div></form></div></div><p>需要预先说明的是，自我们参与以来，该智能体已有了显著改进。此处描述的功能和局限性反映的是我们进行基准测试的 v1 系统，而非产品的当前状态。</p><h2><strong>LatchBio 正在构建什么</strong></h2><p>LatchBio 提供了一个集成平台，弥合了生物信息学工具与需要使用该工具的科学家之间的差距。他们的平台支持来自 40 多种试剂盒和仪器的数据，旨在服务于从可能缺乏计算经验的 bench scientist 到依据分析输出做出决策的研发领导层等各类用户。他们已从 Lux Capital、General Catalyst 和 Caffeinated Capital 等投资者处筹集了约 3280 万美元的资金。</p><p>他们当前工作的核心是一个围绕<strong>Latch Plots</strong> 构建的智能体控制台，这是一个类似 Jupyter notebook 的框架，用于自动化生物信息学数据整理中最耗时的部分。用户可以提示智能体完成离散的任务，例如数据摄入、计数矩阵构建、质量控制、转换、细胞分型和元数据协调。一旦收到提示，大语言模型（LLMs）将在沙盒环境中运行，编写并验证自己的代码，并生成带有思维链推理的报告。人类科学家（用户）在每个阶段审查并批准输出后，流程才会继续推进。</p><h2><strong>深入数据</strong></h2><p>在评估智能体之前，我们需要先自行了解数据。我们处理的绝大多数数据来自 10x Genomics 的空间转录组数据集，主要是 Xenium FFPE（甲醛固定石蜡包埋）人类乳腺癌样本，同一目录中还混合了一些 Visium 数据。Xenium 是一种原位转录组平台，针对数百个基因的目标面板提供亚细胞分辨率的基因表达测量，而 Visium 则以 spot-level（点级）分辨率捕获全转录组数据。两者均为空间解析，但在基因面板大小、分辨率、文件结构以及适合每种情况的分析方法上存在显著差异。</p><p>我们花了大量时间阅读相关文献，特别是 10x Genomics 的论文<a href="https://www.nature.com/articles/s41467-023-43458-x"> </a><em><a href="https://www.nature.com/articles/s41467-023-43458-x">《使用整合的单细胞、空间和原位分析对肿瘤微环境进行高分辨率映射》</a></em>，以确立这些数据集的正确分析方法。我们希望从基因组学家的角度来审视智能体，了解良好结果应有的样子，而不仅仅是要求智能体复现已知的图表。</p><p>典型的 Xenium 乳腺癌数据集可能包含约 167,000 个细胞，涉及约 541 个基因的面板。在 Scanpy 等工具中的标准分析工作流程包括质量控制过滤（移除检测到基因过少或总计数过少的细胞）、文库大小标准化、对数转换、主成分分析（PCA）降维、邻域图构建、Leiden 聚类以及用于可视化的 UMAP 嵌入。在下游，你会运行差异表达分析以查找每个集群的标志基因，并尝试基于已知标志基因面板进行细胞类型注释。这些步骤中的每一步都有对结果产生实质性影响的参数——聚类分辨率、邻居数量、差异表达测试的选择——如果设置错误，可能会产生预处理的人为产物集群，而非真实生物学的反映。

查看原文

基准测试生物学 AI 智能体：ML@B 与 LatchBio 的合作

相似文章

@OkhayIea: 每个人都在竞相构建“AI科学家”。因此我们提出了一个直白的问题：当今最好的编码代理能打败公开发表的…

跨尺度科学挑战的AI智能体基准测试

神经数据不再无聊：代理型AI在数据复用中的基准测试

MLS-Bench：对 AI 系统在构建更优 AI 方面能力的全面与严格评估

技能增强型AI代理在医学研究分析中的应用：一项NSCLC转录组生物标志物任务中的探索性多模型人类评估

提交意见反馈