推出用于生命科学研究的 GPT-Rosalind
摘要
OpenAI 推出 GPT-Rosalind,这是一种前沿推理模型,旨在通过优化科学工作流程和工具使用,加速生物学、药物发现和转化医学领域的研究。
OpenAI 推出 GPT-Rosalind,这是一种前沿推理模型,旨在加速药物发现、基因组学分析、蛋白质推理以及科学研究工作流程。
查看缓存全文
缓存时间: 2026/05/08 09:48
# 为生命科学研究推出 GPT-Rosalind
来源:https://openai.com/index/introducing-gpt-rosalind/
今天,我们正式推出 GPT-Rosalind——这是我们的前沿推理模型,旨在支持生物学、药物发现和转化医学领域的研究。该生命科学模型系列针对科研工作流进行了优化,在化学、蛋白质工程和基因组学领域结合了更深入的理解与增强的工具使用能力。
在美国,从靶点发现到新药获得监管批准,平均需要大约 10 到 15 年时间。发现阶段早期取得的进展,会在后续环节累积成更好的靶点选择、更强的生物学假说和更高质量的实验。生命科学领域的进步不仅受限于基础科学本身的难度,也受限于研究工作流自身的复杂性。科学家必须处理大量的文献、专门的数据库、实验数据以及不断演化的假说,才能提出并评估新想法。这些工作流往往耗时、碎片化且难以规模化。
我们相信,先进的 AI 系统可以帮助研究人员更快地推进这些工作流——不仅是通过提高现有工作的效率,更是通过帮助科学家探索更多可能性,发现可能被忽略的联系,并更早地得出更好的假说。通过支持证据综合、假说生成、实验规划以及其他多步骤研究任务,该模型旨在帮助研究人员加速早期发现阶段。随着时间的推移,这些系统有望帮助生命科学组织以更高的成功率,发现原本不可能实现的突破。
GPT-Rosalind 现已作为研究预览版在 ChatGPT、Codex 和 API 中提供,通过我们的可信访问计划面向符合条件的客户。我们还为 Codex 推出了一款可免费访问的生命科学研究插件,帮助科学家将模型连接到 50 多个科学工具和数据源。我们正与 Amgen、Moderna、Allen Institute、Thermo Fisher Scientific 等客户合作,将 GPT-Rosalind 应用于加速研究和发现的工作流中。
该模型以罗莎琳德·富兰克林(Rosalind Franklin)的名字命名,她严谨的研究帮助揭示了 DNA 的结构,并为现代分子生物学奠定了基础。
从原始数据到基于证据的发现决策,看看我们专为科研打造的模型如何加速研究工作流。
## 专为科研工作流打造
GPT-Rosalind 生命科学模型系列专为涉及发表证据、数据、工具和实验的现代科研工作而构建。在我们的评估中,它在需要推理分子、蛋白质、基因、通路和疾病相关生物学的任务上表现出最佳性能,并且在多步骤工作流(如文献综述、序列到功能解读、实验规划和数据分析)中,能更有效地使用科学工具和数据库。
这是 GPT-Rosalind 生命科学模型系列的首次发布,我们将继续扩展模型在长周期、重工具的科研工作流中的生化推理能力边界。OpenAI 的计算基础设施使我们能够针对真实的科研任务,持续训练、评估和改进日益强大的领域模型——帮助这些系统随着工作流本身的复杂化而变得更有用。
从基于证据的发现洞察到高影响力实验,看看我们的解决方案套件如何转化为研究工作流中可衡量的改进。
## 客户与生态系统
我们正在与领先的制药、生物技术和研究客户,以及生命科学技术组织合作,将 GPT-Rosalind 应用于推动发现的工作流中。
> "生命科学领域要求每一步都精准。问题高度复杂,数据高度独特,风险也极高。我们与 OpenAI 的独特合作使我们能够以新的创新方式应用他们最先进的能力和工具,从而有可能加速我们为患者提供药物的进程。"
>
> ——Sean Bruich,Amgen 人工智能与数据高级副总裁
## 性能与评估
我们对 GPT-Rosalind 在一系列对科学发现和行业研究至关重要的能力上进行了评估。这些评估衡量了科学子领域的核心推理能力,包括化学反应机理;蛋白质结构、突变效应和相互作用;以及 DNA 序列的系统发育解读。它们还评估模型是否能通过解释实验输出、识别专家相关模式以及综合外部信息来设计后续实验,从而支持真实的研究工作流。最后,测试了模型能否选择并使用正确的计算工具、数据库和领域特定能力来增强其推理能力。综合来看,这些评估展示了在科学研究的端到端过程中取得的进展,并表明模型具有更强的能力来帮助研究人员攻克具有挑战性的发现任务。
## 行业评估
我们在一系列公开基准上对 GPT-Rosalind 进行了评估。在 BixBench(一个围绕真实生物信息学和数据分析设计的基准)上,GPT-Rosalind 在已发布分数的模型中取得了领先性能。
在 LABBench2(一个衡量文献检索、数据库访问、序列操作和方案设计等一系列研究任务性能的基准)上,GPT-Rosalind 在 11 项任务中有 6 项表现优于 GPT-5.4。最显著的改进来自 CloningQA,该任务需要为分子克隆方案进行 DNA 和酶试剂的端到端设计。
我们还与 Dyno Therapeutics(一家开创 AI 设计基因疗法的公司)合作,使用未公开的、未被污染序列,在 RNA 序列到功能预测和生成任务上评估模型。性能与来自 AI-生物领域的人类专家的 57 个历史分数进行了比较。当直接在 Codex 应用中进行评估时,模型的最佳十次提交在预测任务上排名高于人类专家的第 95 百分位,在序列生成任务上接近人类专家的第 84 百分位。
这些评估为模型在科学家日常用于生成证据、分析复杂数据并得出可靠生物学结论的工作流中的性能提供了有意义的信号。
科学家现在可以使用我们新的生命科学研究插件(在新窗口中打开)(https://github.com/openai/plugins/tree/main/plugins/life-science-research) 用于 Codex,该插件已在 GitHub 上提供。该软件包包含一组针对大多数常见研究工作流的模块化技能,旨在帮助用户处理人类遗传学、功能基因组学、蛋白质结构、生物化学、临床证据和公共研究发现等工作。
这些技能充当了一个编排层,帮助科学家更有效地处理广泛、模糊且多步骤的问题。它们提供了对 50 多个公共多组学数据库、文献来源和生物学工具的访问,并为常见的可重复工作流(如蛋白质结构查询、序列搜索、文献综述和公共数据集发现)提供了灵活的起点。
符合条件的 Enterprise 用户可以在研究工作流中使用此插件与 GPT-Rosalind 进行更深入的生物学推理,而所有用户都可以将插件包与我们主流的模型一起使用。
## 可信访问
我们希望将这些能力提供给最有可能推动人类健康进步的科学家和研究组织,同时保持强大的生物滥用防护措施。生命科学模型通过可信访问部署结构推出,首先面向美国符合条件的 Enterprise 客户,并围绕资格、访问管理和组织治理进行控制。同时,我们更广泛地发布了一组连接器和生命科学研究插件,以便研究人员更有效地使用我们的主流模型进行生命科学研究任务。
生命科学模型的开发采用了更高等级的企业级安全控制和强化访问管理,从而能够在受治理的研究环境中进行专业科学用途。我们基于三个核心原则评估访问:有益用途、强大的治理和安全监督,以及受控访问与企业级安全。在实践中,这意味着参与组织必须进行具有明确公共利益的合法科学研究;保持适当的治理、合规和滥用预防控制;并将访问权限限制在安全、管理良好的环境中的授权用户。组织还必须同意生命科学研究预览条款并遵守 OpenAI 的使用政策,我们可能会在注册或持续参与过程中要求提供更多信息。
## 入门指南
组织可以通过我们的资格和安全审查流程申请访问 (https://openai.com/form/life-sciences-access)。
在研究预览期间,使用此模型不会消耗现有的积分或令牌——但需遵守滥用防护措施。随着项目的扩展,我们将分享有关定价和可用性的更多细节。
生命科学模型旨在帮助科学组织在需要技术能力和运营控制的环境中,更快地完成更高质量的工作。我们专门的生命科学团队以及包括麦肯锡、波士顿咨询集团(BCG)和贝恩公司在内的咨询合作伙伴,帮助组织确定高影响力用例,将模型集成到企业环境中,并推动可衡量的成果。如果您想探索 OpenAI Life Sciences 如何支持您的工作,可以联系我们的生命科学团队 (https://openai.com/contact-sales/)。
## 未来规划
这是生命科学模型系列的首次发布,我们将其视为长期承诺的开始——构建能够加速对人类健康及更广泛生物学研究等领域至关重要的科学发现的 AI。我们将继续改进模型的生物学推理能力,扩展对重工具和长周期研究工作流的支持,并与领先的科学机构密切合作,评估真实世界的影响。这包括与洛斯阿拉莫斯国家实验室等国家实验室的持续合作,我们正在探索 AI 指导的蛋白质和催化剂设计,包括 AI 系统在保持或改善关键功能特性的同时修改生物结构的能力。
随着时间的推移,我们预计这些系统将成为越来越强大的发现合作伙伴——帮助科学家更快地从问题到证据,从证据到洞察,从洞察到为患者提供新的治疗方法。
相似文章
@OpenAI: 推出 GPT-Rosalind,我们的前沿推理模型,旨在支持生物学、药物发现及转…
OpenAI 推出 GPT-Rosalind,这是一个前沿推理模型,专门设计用于支持生物学、药物发现和转化医学领域的研究。
@OpenAI: GPT-Rosalind,我们的生命科学模型系列,针对科学工作流进行了优化,在蛋白质推理、化学分析、基因组学及科学工具使用方面表现更佳。
OpenAI 发布了 GPT-Rosalind,这是一款专门针对蛋白质推理、化学分析、基因组学和科学工作流优化的生命科学模型。
设计更快速的生命科学实验
OpenAI 的 GPT-Rosalind 加上生命科学插件,可在几秒内将高优先级靶点转化为可直接运行的 96 孔湿实验方案,每一步试剂选择都基于公开数据,并将实验结果反馈回来,把设计周期缩短至数小时。
将零散证据转化为生命科学发现决策
OpenAI 在 Codex 中推出的全新生命科学模型“GPT-Rosalind”通过协调多个专业子代理,将遗传学、转录组学、安全性和知识产权数据融合为单一证据支持的决策,自主对哮喘药物靶点进行排序。
加速生命科学研究
OpenAI 与 Retro Biosciences 合作开发了 GPT-4b micro,这是 GPT-4o 的专门版本,用于蛋白质工程,实现了干细胞重编程标志物表达提高 50 倍,并增强了 DNA 损伤修复能力。这些发现已在多个供体和细胞类型中得到验证,证明了人工智能加速生命科学研究的潜力。