将零散证据转化为生命科学发现决策
摘要
OpenAI 在 Codex 中推出的全新生命科学模型“GPT-Rosalind”通过协调多个专业子代理,将遗传学、转录组学、安全性和知识产权数据融合为单一证据支持的决策,自主对哮喘药物靶点进行排序。
Codex 中的 GPT-Rosalind 帮助科学家从原始科学输入出发,在发现工作流程中形成有证据支持的假设、分析和研究决策。
了解更多:https://openai.com/...
查看缓存全文
缓存时间: 2026/04/21 16:32
TL;DR:OpenAI 的生命科学智能体在 Codex 中自主运行,将分散的内部与公开数据转化为哮喘靶点排序列表(IL-33、TSLP、IL-1RA1)。它先启动遗传学、转化生物学及监管背景等子智能体,再将结果融合成有证据支撑的决策。
## 将零散证据转化为生命科学发现决策
### 挑战:从原始输入到靶点排序
科学家通常需要翻阅湿实验记录本、外部数据库和文献,再手动拼出 go/no-go 决定。OpenAI 的新生命科学模型,代号“GPT-Rosalind”,把整个流程封装成一条可复现的 Codex 工作流。演示任务:利用内部证据包和实时公开数据,比较并排序三个已验证的哮喘靶点——IL-33、TSLP 和 IL-1RA1。
### 起点:内部证据包
用户把一个本地文件夹拖进 Codex,里面包含:
- 内部细胞实验
- 生物标志物策略幻灯片
- 可开发性与安全性读出
- 目标产品概况(TPP)草稿
模型读取文件夹后给出简洁结论:
“排序:1) IL-33,2) TSLP,3) IL-1RA1,受内部效价和生物标志物关联驱动。”
行内引用指向支持每条陈述的具体 Excel 行和 PDF 页码。
### 第一次扩展:调用生命科学插件
Codex 弹出提示:
“人类遗传学或靶点-疾病证据可扩展。是否运行?”
一键启动生命科学研究插件。模型已微调,知道该调用哪些数据源——GWAS catalog、GTeX、UK-Biobank、DisGeNET、OpenTargets——以及如何给它们的输出赋权。
### 并行子智能体,确保标准无偏
数据流不会过早合并,Codex 先派出六名专业子智能体:
1. Pascal – 人类遗传学
2. Marie – 转录组与细胞类型特异性
3. Rosalind – 通路和网络拓扑
4. Darwin – 动物模型表型
5. Frida – 监管先例与安全警示
6. Watson – 竞争格局与专利到期
各智能体独立工作,遵循预设评分规则,把 JSON 摘要存入共享证据总线。
#### 示例:Pascal 的遗传学深挖
Pascal 收到指令:
“收集哮喘全基因组显著 SNP(p < 5 × 10⁻⁸),eQTL 共定位概率 > 0.8,并归类到 IL-33、TSLP 或 IL-1RA1。”
返回结果:
- IL-33:3 个独立位点,其中 2 个可信集变异位于增强子区;孟德尔随机化 OR = 1.42(95 % CI 1.19–1.68)。
- TSLP:1 个位点,气道上皮 eQTL,MR OR = 1.18。
- IL-1RA1:无全基因组显著 SNP;全血 eQTL 但肺组织无。
#### 其他智能体速览
Marie 发现 IL-33 在病毒性加重期间气道上皮选择性上调最显著(log2FC 2.1,FDR 3 × 10⁻⁵)。
Darwin 报告 Il33 敲除小鼠屋尘螨诱导的气道高反应性降低 60 %,TSLP 敲除仅 25 %;Il1ra1−/− 出现致死性炎症表型,安全警示。
Frida 翻出 FDA 对早期 IL-1RA1 激动剂的“临床暂停”备忘录,原因为中性粒细胞减少。
Watson 指出 IL-33 单抗专利 2038 年到期,TSLP 2036 年,IL-1RA1 小分子族 2031 年。
### 综合:融合六层正交证据
最后一个智能体标记“完成”后,生命科学模型运行贝叶斯证据整合脚本。每层证据按用户可调的“信任滑块”加权(默认:人类遗传学 30 %、转化数据 25 %、安全性 20 %、IP 15 %、竞争 10 %)。后验得分确认初始排序:IL-33(0.87)> TSLP(0.71)> IL-1RA1(0.34)。
### 交付回科学家
自动生成一页备忘录:
- 带综合评分的靶点排序
- 关键驱动句:“IL-33 在遗传关联、上皮特异性及稳健 KO 表型上领先。”
- 警示框:“IL-1RA1 因中性粒细胞减少信号和遗传支持弱被降级。”
- 附录:完整智能体日志、数据库版本及可复现笔记本链接。
### 可复现与审计
每次查询、API 调用和提示均带版本戳。第二名科学家可重跑同一工作流获得相同排序,或更换权重方案做敏感性分析。
### 路线图:更深入的生物学推理
OpenAI 表示,该生命科学模型正在“学会更长久、更生物学地思考”。下一步包括蛋白结构感知评分、自动 CRISPR 向导设计,并与机器人实验平台集成,让排序后的靶点列表直接流入高通量验证。
来源:https://www.youtube.com/watch?v=a-YJ6h7EJv8
相似文章
推出用于生命科学研究的 GPT-Rosalind
OpenAI 推出 GPT-Rosalind,这是一种前沿推理模型,旨在通过优化科学工作流程和工具使用,加速生物学、药物发现和转化医学领域的研究。
@OpenAI: GPT-Rosalind,我们的生命科学模型系列,针对科学工作流进行了优化,在蛋白质推理、化学分析、基因组学及科学工具使用方面表现更佳。
OpenAI 发布了 GPT-Rosalind,这是一款专门针对蛋白质推理、化学分析、基因组学和科学工作流优化的生命科学模型。
设计更快速的生命科学实验
OpenAI 的 GPT-Rosalind 加上生命科学插件,可在几秒内将高优先级靶点转化为可直接运行的 96 孔湿实验方案,每一步试剂选择都基于公开数据,并将实验结果反馈回来,把设计周期缩短至数小时。
@OpenAI: 推出 GPT-Rosalind,我们的前沿推理模型,旨在支持生物学、药物发现及转…
OpenAI 推出 GPT-Rosalind,这是一个前沿推理模型,专门设计用于支持生物学、药物发现和转化医学领域的研究。
加速生命科学研究
OpenAI 与 Retro Biosciences 合作开发了 GPT-4b micro,这是 GPT-4o 的专门版本,用于蛋白质工程,实现了干细胞重编程标志物表达提高 50 倍,并增强了 DNA 损伤修复能力。这些发现已在多个供体和细胞类型中得到验证,证明了人工智能加速生命科学研究的潜力。