CP-Agent: 面向化学扰动下细胞形态轮廓分析的情境感知多模态推理

arXiv cs.AI 论文

摘要

CP-Agent 是一个多模态大语言模型,它利用情境感知对齐(CP-CLIP)来解释化学扰动下的细胞形态变化,从而为药物发现提供可解释且可扩展的表型筛选。

arXiv:2606.03435v1 公告类型:新 摘要:Cell Painting 结合了多重荧光染色、高内涵成像和定量分析,生成高维表型读数,以支持多种下游任务,如作用机制推断、毒性预测和药物-疾病图谱的构建。然而,现有工作流程缓慢、成本高且难以解释。药物筛选建模方法主要集中在分子表示学习上,而忽略了实际的实验情境(例如,细胞系、给药方案等),这限制了泛化能力和作用机制分辨率。我们引入了 CP-Agent,一个智能多模态大语言模型,能够为药物扰动下的细胞形态变化生成与机制相关、人类可解释的推理。其核心是利用情境感知对齐模块 CP-CLIP,该模块联合嵌入高内涵图像和实验元数据,以实现稳健的治疗和作用机制区分(最大 F1 分数达到 0.896)。通过将 CP-CLIP 输出与智能工具使用和推理相结合,CP-Agent 将推理整合成结构化报告,以指导实验设计和假设优化。这些能力凸显了 CP-Agent 在加速药物发现方面的潜力,它实现了更可解释、可扩展和情境感知的表型筛选——简化了药物发现中假设生成的迭代循环。
查看原文
查看缓存全文

缓存时间: 2026/06/03 09:43

# CP-Agent: 面向化学扰动的上下文感知多模态推理用于细胞形态学分析

**来源:** https://arxiv.org/html/2606.03435

张钰欣1,\*, 李怡瑶2,\*, 何平书4, Simon See4, 吴振钦2,†, Kevin Tsia1,3,5,†

1 香港大学电机电子工程系  
2 香港大学计算与数据科学学院  
3 香港大学生物医学工程学院  
4 英伟达AI技术中心  
5 先进生物医学仪器中心  

###### 摘要

细胞绘画(Cell Painting)结合了多重荧光染色、高内涵成像和定量分析,生成高维表型读数,以支持多种下游任务,如作用机制(MoA)推断、毒性预测以及药物-疾病图谱的构建。然而,现有工作流程缓慢、成本高昂且难以解释。当前的药物筛选建模方法主要聚焦于分子表征学习,忽略了实际的实验上下文(如细胞系、给药方案等),从而限制了泛化能力和MoA分辨率。我们提出CP-Agent,一种智能体多模态大语言模型(MLLM),能够针对药物扰动下的细胞形态变化,生成与机制相关、人类可解释的推理依据。CP-Agent的核心是一个上下文感知对齐模块CP-CLIP,该模块联合嵌入高内涵图像和实验元数据,实现稳健的治疗和MoA区分(最大F1分数达到0.896)。通过将CP-CLIP输出与智能体工具使用和推理相结合,CP-Agent将推理依据整合为结构化报告,以指导实验设计和假设迭代。这些能力凸显了CP-Agent通过实现更可解释、可扩展且上下文感知的表型筛选来加速药物发现的潜力——从而简化药物发现中假设生成的迭代周期。

††脚注:*同等贡献。†通讯作者。项目页面:https://github.com/letitia-zhang/CP-Agent

## 1 引言

具有高内涵成像的细胞绘画已成为可扩展表型药物发现的主力工具。这项技术结合了先进显微镜、多重荧光染色和定量图像分析,使我们能够建立高维度的细胞形态学图谱,捕捉细胞对化学扰动的丰富多尺度响应。这些图谱已被证明在支持作用机制(MoA)推断(Tian et al., 2023)、毒性预测(Ewald et al., 2025)、先导化合物筛选(Vincent et al., 2020)和药物重定位(Fredin Haslum et al., 2024)方面具有价值,同时也使得参考图谱的构建和更好的靶点去卷积成为可能(Moffat et al., 2017)。

在细胞绘画工作流程中,细胞在多种条件下受到扰动,实验上下文并非需要控制的无用变量,而是需要建模的信号。例如,剂量和时间定义了轨迹;细胞背景调节通路读数(附录B.2)。由此产生的图谱指导后续实验,并能推进表型驱动的药物发现。

然而,基于细胞绘画的药物发现仍受限于若干挑战:(i) 复杂的中间依赖性:形态学响应高度依赖于上下文。例如,浓度依赖性图谱在不同剂量水平间显示出低相关性(Pearson r = 0.21-0.26)(Trapotsi et al., 2022),并且MoA预测对细胞系背景敏感(Seal et al., 2024)。忽略这些结构会将生物学信息与采集伪影混为一谈,并浪费宝贵的元数据;(ii) 趋同形态:具有不同机制的化合物可能诱导形态学读数收敛,降低MoA分辨率,从而使提取标准化、可解释的描述符复杂化;(iii) 缺乏语义基础:将图像嵌入表示为非结构化的特征向量限制了其语义推理能力和下游生物学推断能力。

近年来,各种人工智能方法已被引入细胞绘画数据集,例如生成方法用于合成扰动下的图像(Navid et al., 2024; Cross-Zamirski et al., 2023; Palma et al., 2025),以及整合化学和遗传注释与细胞绘画图像的多模态框架(Sanchez-Fernandez et al., 2023)(Fradkin et al., 2024; Lu et al., 2025)。例如,CLOOME首次引入了一种CLIP风格的模型,将细胞绘画图像与分子结构对齐。MolPhenix和CellCLIP进一步扩展了这一方向,利用强大的单模态基础模型来对齐分子。然而,许多现有模型提供的是黑箱特征的视觉嵌入,缺乏语义可解释性。此外,实验上下文常常未被充分利用:元数据通过后期融合或作为非结构化文本附加,导致表征信息量不足,并阻碍了迭代式、闭环的实验设计。

与此同时,新兴的多模态大语言模型(MLLM)提供了推理能力,并已应用于多种生物学领域,如基因组学、生物医学成像和组学数据分析(Zhang et al., 2024a; Lin et al., 2025; Liu et al., 2024b; Hu et al., 2024b; Zhang et al., 2024b)。然而,它们在药物筛选中的应用仍探索不足。

在本工作中,我们提出CP-Agent,一种上下文感知的智能体MLLM框架,用于细胞绘画药物扰动筛选。其核心是CP-CLIP,一个对比对齐模块,联合嵌入细胞绘画图像和结构化实验上下文,包括药物化合物及其他关键实验条件,从而增强细胞形态学的生物学相关性。该模型在190万图像-上下文对上预训练,采用定制的令牌注入策略嵌入关键字段以实现更好的对齐。跨策划分类任务的全面评估表明,CP-CLIP优于通用基线模型。基于这一感知层,CP-Agent集成了工具增强推理和任务适应的MLLM,并以表型描述符和MoA本体为基础,生成结构化、可解释的输出。总之,这一智能体系统支持可扩展和可互操作的表型分析,实现跨研究泛化,并为检测优先级排序和迭代提供可操作的见解,从而加速表型药物发现中的假设生成并改善决策制定。

## 2 方法

### 2.1 数据集

我们采用了三个公开的细胞绘画数据集,共计约190万对:BBBC021(Caie et al., 2010)、CPJUMP1(Chandrasekaran et al., 2024)和RxRx3(Fay et al., 2023),涵盖了由不同化合物诱导的表型。每个图像-上下文对包含一张显微镜图像及其相关的实验上下文(例如,细胞系、实验处理条件)。我们精心挑选化合物以确保跨数据集的MoA标签可追溯。对于每个数据集合,我们将扰动化学化合物的SMILES表示与ChEMBL进行匹配,检索其靶点和MoA,并仅保留具有公开可解析MoA名称的化合物。策划的多数据集设置总结见表1。有关数据集背景的更多详细信息,请参见附录C。

**表1:本研究中使用的数据集摘要**

| 数据集 | 细胞系 | 通道 | 化合物 | 浓度 | 时间 | 图像对 |
| :--- | :--- | :--- | :--- | :--- | :--- | :--- |
| BBBC021 | MCF-7 (p53 WT) | 3 | 34 | 可变8点半对数 | 24小时 | 144,411 |
| CPJUMP1 | U2OS, A549 | 5 | 625 | 5.0 μM | 24小时, 48小时 | 562,687 |
| RxRx3 | HUVEC | 6 | 380 | 固定8点半对数 | ~20小时 | 1,265,984 |

训练集包含1,846,436个图像-文本对,验证集包含9,395个对。对于零样本评估,我们策划了一个保留化合物集,涵盖所有三个数据集,旨在评估对未见扰动的泛化能力。

### 2.2 分子药物编码

几种已建立的方法将化合物扰动映射为向量表示,从而实现与图像嵌入的对齐并促进多模态学习(Winter et al., 2019; Wu et al., 2025)。例如,基于SMILES(如ChemBERTa)和基于图的模型从结构中学习分子嵌入,通常使用RDKit进行预处理。或者,可以计算连续分子描述符嵌入(例如,物理化学和拓扑描述符),形式化为参数化特征提取器:
φ_desc(x; P) = [f₁(x; P₁), f₂(x; P₂), ..., f_d(x; P_d)] ∈ ℝ^d,
其中 x 是输入的分子表示(例如,SMILES字符串或分子图),每个 f_i(x; P_i) 提取一个特定属性,形成一个 d 维实值特征向量。相比之下,二进制指纹嵌入编码子结构的存在/缺失(例如,Morgan/环形、MACCS或基于路径的指纹)(Bento et al., 2020):
φ_fp: M → {0,1}^d 或 ℕ₀^d,
在分子空间 M 上产生二进制或基于计数的编码。

### 2.3 CP-CLIP:重新处理

为了协调具有不同分辨率和信号质量的细胞绘画图像,我们定义了一个逐通道预处理步骤:
P: ℝ^(H₀×W₀) → ℝ^(H×W),独立应用于每个荧光通道。这包括对比度受限自适应直方图均衡化(CLAHE)、随机拉普拉斯锐化和伽马校正,得到增强图像 Ĩ = P(I)。增强后的单通道图像随后被裁剪成 512×512 的图块并堆叠,生成输入瓦片 x_p ∈ ℝ^(512×512×C)。对于每个扰动瓦片 x_p,一个对应的对照瓦片 x_c ∈ ℝ^(512×512×C) 从匹配的对照集 Ω(x_p) 中独立采样,该对照集除了扰动化合物外,与 x_p 共享所有实验上下文(例如,板、细胞系、通道)。即 x_c ~ U(Ω(x_p))。最终图像分支输入通过沿通道维度拼接灰度扰动瓦片和对照瓦片形成,x̂ = concat(x_p, x_c) ∈ ℝ^(512×512×2)。这种配对设计鼓励模型学习处理状态与未处理状态之间的对比。

**分子描述符** 通过固定维度映射 f_desc: X → ℝ^d 进行投影,其中每个特征维度对应一个预定义的物理化学或拓扑属性(参见附录D)。设 v = f_desc(x) ∈ ℝ^d 为化合物 x ∈ X 的原始描述符向量。为确保数值稳定性和跨化合物的可比性,删除包含未定义值(如 NaN 或 Inf)的维度,并对每个特征维度独立应用 z-score 归一化:ṽ_i = (v_i - μ_i) / σ_i。

为考虑化合物特异性给药方案,每个分子由一个归一化剂量对 [ρ_max, s(C)] 表示,其中 ρ_max 表示分子质量归一化的最大浓度(mg/mL),s(C) 是对应于给定浓度的对数尺度剂量步进指数。设 M ∈ ℝ>0 为分子量(Da 或 g/mol),C_max ∈ ℝ>0 为名义最大浓度(μM)。那么,分子最大质量浓度由下式给出:
ρ_max [mg/mL] := (M [Da] ⋅ C_max [μM]) / 10^6    (1)
其中分母 10^6 反映了从 μM 和 Da 到 mg/mL 的转换。而对于每个滴定点 C ∈ {C₁, ..., C₈},一个伪步进指数在对数尺度上计算以反映稀释比例:
s(C) := (log₁₀(C_max) - log₁₀(C)) / Δlog,   Δlog = 0.5    (2)
其中分母 0.5 对应于2倍系列稀释协议中相邻滴定水平之间的对数变化倍数。详细推导见附录E。

对于**观察时间**,设 t ∈ ℝ≥0 为以天为单位的时间。时间归一化通过 t̃ = t / T_max 将 t 重新缩放到单位区间,其中 T_max = 112。112天(16周)窗口反映了FDA的停止规则,由 Watkins et al. (2022) 在其药物经济学分析中采用。这些表示确保了输入空间在具有不同给药方案和时点的化合物之间保持一致。

### 2.4 CP-CLIP:上下文感知令牌投影

**参见图注**

图 1:CP-Agent(顶部)和 CP-CLIP(底部)的示意图。CP-Agent将感知、记忆检索和模块化分析连接成一个统一的流水线,用于生成细胞绘画实验的报告。CP-CLIP构成了CP-Agent感知模块的骨干,提供了细胞绘画图像和结构化实验上下文的联合嵌入。

我们的对比框架使用了一个专为药物筛选实验元数据定制的结构化文本编码器(图1,底部)。每个实验被表示为由细胞培养、成像和药物化合物扰动条件组成的提示式序列。因此,“原始文本”指的是结构化的实验元数据,如细胞系、培养基、成像参数、化合物身份、剂量、时间以及其他可能的文化信息。这些上下文描述是固定的。# CP-Agent: 面向化学扰动的上下文感知多模态推理用于细胞形态学分析

**来源:** https://arxiv.org/html/2606.03435

张钰欣1,\*, 李怡瑶2,\*, 何平书4, Simon See4, 吴振钦2,†, Kevin Tsia1,3,5,†

1 香港大学电机电子工程系  
2 香港大学计算与数据科学学院  
3 香港大学生物医学工程学院  
4 英伟达AI技术中心  
5 先进生物医学仪器中心  

###### 摘要

细胞绘画(Cell Painting)结合了多重荧光染色、高内涵成像和定量分析,生成高维表型读数,以支持多种下游任务,如作用机制(MoA)推断、毒性预测以及药物-疾病图谱的构建。然而,现有工作流程缓慢、成本高昂且难以解释。当前的药物筛选建模方法主要聚焦于分子表征学习,忽略了实际的实验上下文(如细胞系、给药方案等),从而限制了泛化能力和MoA分辨率。我们提出CP-Agent,一种智能体多模态大语言模型(MLLM),能够针对药物扰动下的细胞形态变化,生成与机制相关、人类可解释的推理依据。CP-Agent的核心是一个上下文感知对齐模块CP-CLIP,该模块联合嵌入高内涵图像和实验元数据,实现稳健的治疗和MoA区分(最大F1分数达到0.896)。通过将CP-CLIP输出与智能体工具使用和推理相结合,CP-Agent将推理依据整合为结构化报告,以指导实验设计和假设迭代。这些能力凸显了CP-Agent通过实现更可解释、可扩展且上下文感知的表型筛选来加速药物发现的潜力——从而简化药物发现中假设生成的迭代周期。

††脚注:*同等贡献。†通讯作者。项目页面:https://github.com/letitia-zhang/CP-Agent

## 1 引言

具有高内涵成像的细胞绘画已成为可扩展表型药物发现的主力工具。这项技术结合了先进显微镜、多重荧光染色和定量图像分析,使我们能够建立高维度的细胞形态学图谱,捕捉细胞对化学扰动的丰富多尺度响应。这些图谱已被证明在支持作用机制(MoA)推断(Tian et al., 2023)、毒性预测(Ewald et al., 2025)、先导化合物筛选(Vincent et al., 2020)和药物重定位(Fredin Haslum et al., 2024)方面具有价值,同时也使得参考图谱的构建和更好的靶点去卷积成为可能(Moffat et al., 2017)。

在细胞绘画工作流程中,细胞在多种条件下受到扰动,实验上下文并非需要控制的无用变量,而是需要建模的信号。例如,剂量和时间定义了轨迹;细胞背景调节通路读数(附录B.2)。由此产生的图谱指导后续实验,并能推进表型驱动的药物发现。

然而,基于细胞绘画的药物发现仍受限于若干挑战:(i) 复杂的中间依赖性:形态学响应高度依赖于上下文。例如,浓度依赖性图谱在不同剂量水平间显示出低相关性(Pearson r = 0.21-0.26)(Trapotsi et al., 2022),并且MoA预测对细胞系背景敏感(Seal et al., 2024)。忽略这些结构会将生物学信息与采集伪影混为一谈,并浪费宝贵的元数据;(ii) 趋同形态:具有不同机制的化合物可能诱导形态学读数收敛,降低MoA分辨率,从而使提取标准化、可解释的描述符复杂化;(iii) 缺乏语义基础:将图像嵌入表示为非结构化的特征向量限制了其语义推理能力和下游生物学推断能力。

近年来,各种人工智能方法已被引入细胞绘画数据集,例如生成方法用于合成扰动下的图像(Navid et al., 2024; Cross-Zamirski et al., 2023; Palma et al., 2025),以及整合化学和遗传注释与细胞绘画图像的多模态框架(Sanchez-Fernandez et al., 2023)(Fradkin et al., 2024; Lu et al., 2025)。例如,CLOOME首次引入了一种CLIP风格的模型,将细胞绘画图像与分子结构对齐。MolPhenix和CellCLIP进一步扩展了这一方向,利用强大的单模态基础模型来对齐分子。然而,许多现有模型提供的是黑箱特征的视觉嵌入,缺乏语义可解释性。此外,实验上下文常常未被充分利用:元数据通过后期融合或作为非结构化文本附加,导致表征信息量不足,并阻碍了迭代式、闭环的实验设计。

与此同时,新兴的多模态大语言模型(MLLM)提供了推理能力,并已应用于多种生物学领域,如基因组学、生物医学成像和组学数据分析(Zhang et al., 2024a; Lin et al., 2025; Liu et al., 2024b; Hu et al., 2024b; Zhang et al., 2024b)。然而,它们在药物筛选中的应用仍探索不足。

在本工作中,我们提出CP-Agent,一种上下文感知的智能体MLLM框架,用于细胞绘画药物扰动筛选。其核心是CP-CLIP,一个对比对齐模块,联合嵌入细胞绘画图像和结构化实验上下文,包括药物化合物及其他关键实验条件,从而增强细胞形态学的生物学相关性。该模型在190万图像-上下文对上预训练,采用定制的令牌注入策略嵌入关键字段以实现更好的对齐。跨策划分类任务的全面评估表明,CP-CLIP优于通用基线模型。基于这一感知层,CP-Agent集成了工具增强推理和任务适应的MLLM,并以表型描述符和MoA本体为基础,生成结构化、可解释的输出。总之,这一智能体系统支持可扩展和可互操作的表型分析,实现跨研究泛化,并为检测优先级排序和迭代提供可操作的见解,从而加速表型药物发现中的假设生成并改善决策制定。

## 2 方法

### 2.1 数据集

我们采用了三个公开的细胞绘画数据集,共计约190万对:BBBC021(Caie et al., 2010)、CPJUMP1(Chandrasekaran et al., 2024)和RxRx3(Fay et al., 2023),涵盖了由不同化合物诱导的表型。每个图像-上下文对包含一张显微镜图像及其相关的实验上下文(例如,细胞系、实验处理条件)。我们精心挑选化合物以确保跨数据集的MoA标签可追溯。对于每个数据集合,我们将扰动化学化合物的SMILES表示与ChEMBL进行匹配,检索其靶点和MoA,并仅保留具有公开可解析MoA名称的化合物。策划的多数据集设置总结见表1。有关数据集背景的更多详细信息,请参见附录C。

**表1:本研究中使用的数据集摘要**

| 数据集 | 细胞系 | 通道 | 化合物 | 浓度 | 时间 | 图像对 |
| :--- | :--- | :--- | :--- | :--- | :--- | :--- |
| BBBC021 | MCF-7 (p53 WT) | 3 | 34 | 可变8点半对数 | 24小时 | 144,411 |
| CPJUMP1 | U2OS, A549 | 5 | 625 | 5.0 μM | 24小时, 48小时 | 562,687 |
| RxRx3 | HUVEC | 6 | 380 | 固定8点半对数 | ~20小时 | 1,265,984 |

训练集包含1,846,436个图像-文本对,验证集包含9,395个对。对于零样本评估,我们策划了一个保留化合物集,涵盖所有三个数据集,旨在评估对未见扰动的泛化能力。

### 2.2 分子药物编码

几种已建立的方法将化合物扰动映射为向量表示,从而实现与图像嵌入的对齐并促进多模态学习(Winter et al., 2019; Wu et al., 2025)。例如,基于SMILES(如ChemBERTa)和基于图的模型从结构中学习分子嵌入,通常使用RDKit进行预处理。或者,可以计算连续分子描述符嵌入(例如,物理化学和拓扑描述符),形式化为参数化特征提取器:
φ_desc(x; P) = [f₁(x; P₁), f₂(x; P₂), ..., f_d(x; P_d)] ∈ ℝ^d,
其中 x 是输入的分子表示(例如,SMILES字符串或分子图),每个 f_i(x; P_i) 提取一个特定属性,形成一个 d 维实值特征向量。相比之下,二进制指纹编码子结构的存在/缺失(例如,Morgan/环形、MACCS或基于路径的指纹)(Bento et al., 2020):
φ_fp: M → {0,1}^d 或 ℕ₀^d,
在分子空间 M 上产生二进制或基于计数的编码。

### 2.3 CP-CLIP:重新处理

为了协调具有不同分辨率和信号质量的细胞绘画图像,我们定义了一个逐通道预处理步骤:
P: ℝ^(H₀×W₀) → ℝ^(H×W),独立应用于每个荧光通道。这包括对比度受限自适应直方图均衡化(CLAHE)、随机拉普拉斯锐化和伽马校正,得到增强图像 Ĩ = P(I)。增强后的单通道图像随后被裁剪成 512×512 的图块并堆叠,生成输入瓦片 x_p ∈ ℝ^(512×512×C)。对于每个扰动瓦片 x_p,一个对应的对照瓦片 x_c ∈ ℝ^(512×512×C) 从匹配的对照集 Ω(x_p) 中独立采样,该对照集除了扰动化合物外,与 x_p 共享所有实验上下文(例如,板、细胞系、通道)。即 x_c ~ U(Ω(x_p))。最终图像分支输入通过沿通道维度拼接灰度扰动瓦片和对照瓦片形成,x̂ = concat(x_p, x_c) ∈ ℝ^(512×512×2)。这种配对设计鼓励模型学习处理状态与未处理状态之间的对比。

**分子描述符** 通过固定维度映射 f_desc: X → ℝ^d 进行投影,其中每个特征维度对应一个预定义的物理化学或拓扑属性(参见附录D)。设 v = f_desc(x) ∈ ℝ^d 为化合物 x ∈ X 的原始描述符向量。为确保数值稳定性和跨化合物的可比性,删除包含未定义值(如 NaN 或 Inf)的维度,并对每个特征维度独立应用 z-score 归一化:ṽ_i = (v_i - μ_i) / σ_i。

为考虑化合物特异性给药方案,每个分子由一个归一化剂量对 [ρ_max, s(C)] 表示,其中 ρ_max 表示分子质量归一化的最大浓度(mg/mL),s(C) 是对应于给定浓度的对数尺度剂量步进指数。设 M ∈ ℝ>0 为分子量(Da 或 g/mol),C_max ∈ ℝ>0 为名义最大浓度(μM)。那么,分子最大质量浓度由下式给出:
ρ_max [mg/mL] := (M [Da] ⋅ C_max [μM]) / 10^6    (1)
其中分母 10^6 反映了从 μM 和 Da 到 mg/mL 的转换。而对于每个滴定点 C ∈ {C₁, ..., C₈},一个伪步进指数在对数尺度上计算以反映稀释比例:
s(C) := (log₁₀(C_max) - log₁₀(C)) / Δlog,   Δlog = 0.5    (2)
其中分母 0.5 对应于2倍系列稀释协议中相邻滴定水平之间的对数变化倍数。详细推导见附录E。

对于**观察时间**,设 t ∈ ℝ≥0 为以天为单位的时间。时间归一化通过 t̃ = t / T_max 将 t 重新缩放到单位区间,其中 T_max = 112。112天(16周)窗口反映了FDA的停止规则,由 Watkins et al. (2022) 在其药物经济学分析中采用。这些表示确保了输入空间在具有不同给药方案和时点的化合物之间保持一致。

### 2.4 CP-CLIP:上下文感知令牌投影

**参见图注**

图 1:CP-Agent(顶部)和 CP-CLIP(底部)的示意图。CP-Agent将感知、记忆检索和模块化分析连接成一个统一的流水线,用于生成细胞绘画实验的报告。CP-CLIP构成了CP-Agent感知模块的骨干,提供了细胞绘画图像和结构化实验上下文的联合嵌入。

我们的对比框架使用了一个专为药物筛选实验元数据定制的结构化文本编码器(图1,底部)。每个实验被表示为由细胞培养、成像和药物化合物扰动条件组成的提示式序列。因此,“原始文本”指的是结构化的实验元数据,如细胞系、培养基、成像参数、化合物身份、剂量、时间以及其他可能的文化信息。这些上下文描述是固定的。

相似文章

迈向虚拟细胞中的自主机制推理

Hugging Face Daily Papers

本文介绍了VCR-Agent,一个多智能体框架,通过结构化形式化和VC-TRACES数据集生成并验证机制性解释,从而增强大型语言模型在生物学研究中的应用。该方法通过虚拟细胞中的验证性机制推理,提高了基因表达预测的事实准确性。

ChemAmp: 通过可组合智能体增强化学工具

arXiv cs.CL

ChemAmp 引入了一种工具增强范式,通过动态协调专门的化学工具(UniMol2、Chemformer)作为可组合智能体来增强分子任务的性能。该框架性能超越了化学专用模型,并相比传统多智能体系统将推理令牌成本降低了 94%。