深入解读GeneBench-Pro

OpenAI Blog 2026/06/30 00:00 工具

genomics benchmark ai-evaluation openai bioinformatics clinical-genomics research

摘要

GeneBench-Pro 是 OpenAI 推出的一项全面基准测试，旨在评估人工智能模型在复杂基因组学任务上的表现，包括体细胞肿瘤学、功能基因组学以及临床携带者筛查。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/06/30 18:39

# GeneBench-Pro 深度解析来源：https://openai.com/index/genebench-pro/case-studies/ ## 案例研究以下 10 个案例研究展示了 GeneBench-Pro 中的代表性题目。每个案例研究均包含原始提示、数据集和辅助材料。有关基准测试概览和主要发现，请参阅公告博客（https://openai.com/index/introducing-genebench-pro/）。注意：文件预览仅显示完整数据集的片段。案例 1 ### 体细胞肿瘤学：基于结构变异的肿瘤治疗获益-风险决策评估一种合成的 TXR1 靶向抑制剂是否在因结构变异驱动靶点激活的肿瘤中具有正向临床效用。TXR1、TXR1i、DLR1 和星号等位基因标签均为合成的基准标签。 *在将获益和毒性解释为治疗决策之前，必须从长读长、表达、肿瘤质量和药物基因组学证据中恢复目标亚组。* ### 提供给模型的文件登记协变量、治疗方案、第 16 周评估、获益和早期毒性。案例 2 ### 功能基因组学：CRISPR 靶点验证：lncRNA 转录本还是基因组位点？判断一个表观 lncRNA 依赖性是由转录本特异性效应驱动，还是由邻近位点和邻居基因效应驱动。 *转录本导向的证据必须能经受局部 DNA 位点扰动、邻居基因抑制、指导 RNA 交换、GC 毒性及平板效应的控制检验。* ### 提供给模型的文件指导 RNA 坐标、靶点、距离和 GC 特征。案例 3 ### 统计遗传学：在连锁遗传位点中优先排序蛋白质药物靶点使用顺式多变量孟德尔随机化（cis-MVMR）估计两个邻近蛋白质的直接疾病效应，同时处理检测标度、等位基因方向、赢家诅咒、连锁不平衡（LD）和残余局部多效性。 *这两个蛋白质共享一个相关位点。分析必须从边际关联过渡到条件性、考虑 LD 的疾病效应，并统一到常见的蛋白质标度上。* ### 提供给模型的文件 PROTA 的筛选阶段蛋白质关联汇总数据。案例 4 ### 临床基因组学/携带者筛查：DRX1 携带者筛查中考虑 CNV 和假基因校准后的残余风险根据携带者筛查检测数据，估计祖先特异性携带者频率、阴性筛查后的残余风险、伴侣携带者频率以及受影响胚胎的风险。 *残余风险估计依赖于考虑假基因的携带者判定、始祖单倍型合并、祖先特异性检测校准，以及从经过检测的伴侣标准化到完整伴侣名单。* ### 提供给模型的文件筛查名单中的成年个体，包含祖先背景和筛查背景。案例 5 ### 单细胞基因组学：去除环境 RNA 后活化单核细胞的 eQTL 在从单细胞 RNA-seq 数据中去除环境 RNA 和技术污染后，估计基因型对活化单核细胞表达的影响。 *环境 RNA 既影响目标表达，也影响用于判断活化状态的标记基因面板，因此 eQTL 模型之前必须进行校正。* ### 提供给模型的文件每个细胞的 UMI 计数，包括标记基因、污染标记物和靶基因。案例 6 ### 结构遗传学：嵌套结构变异：表达支持与临床关联估计在一个匿名倒位样位点内部的一个嵌套结构亚单倍型是否具有经过校准的临床关联和可信的表达支持。 *嵌套拷贝剂量信号可能受到更广泛倒位方向的干扰，因此剂量校准、表达支持和临床建模必须保持独立。* ### 提供给模型的文件完整队列的临床和协变量数据。案例 7 ### 调控基因组学：在结构变异和比对伪影掩蔽后测量染色质环强度在从期望接触背景中移除低可比对性和结构变异伪影后，量化局部的病例-对照 Hi-C 环强度差异。 *目标环以 20 kb 分辨率定义，但除非首先掩蔽低可比对性接触和仅出现在病例中的 SV 条纹，否则期望接触模型会受到扭曲。* ### 提供给模型的文件目标分辨率的区间注释。案例 8 ### 统计遗传学：基于奠基者重建的多亲本 QTL 定位在八个奠基者的重组群体中，先重建奠基者祖先，再检验表型关联，从而定位 1 号染色体上的数量性状位点（QTL）。 *可见的标记数据是双等位基因的，但生物学信号是奠基者祖先。因此，一个严谨的分析必须重建奠基者状态、检查标记方向，并将 QTL 与一个批次对齐的干扰峰分离开。* ### 提供给模型的文件标记标识符、染色体和遗传图谱位置。案例 9 ### 群体遗传学：亲本特异性祖先与近期混合时间从分相后的局部祖先片段中，在修复互为伪影和染色体特异性标签反转后，推断亲本特异性祖先比例和近期混合时间。 *如果处理不当，互为片段伪影、染色体局部标签反转或图谱分母错误都会改变祖先分数和脉冲时间。* ### 提供给模型的文件分相后的局部祖先片段，包含坐标、祖先标签、后验值和质控注释。案例 10 ### 群体遗传学：从有噪声的古代 DNA 时间序列估计选择在考虑等位基因方向、定向误差、漂变和种群大小变化的情况下，根据古代等位基因频率时间序列推断两个单倍体位点中哪一个受到更强的正向选择。 *有噪声的古代轨迹在将两个位点都置于相同的衍生等位基因标度上，并直接使用提供的样本级测序错误值建模之前，是无法直接比较的。* ### 提供给模型的文件位点 A 的读数计数时间序列。

深入解读GeneBench-Pro

相似文章

GeneBench-Pro 介绍

@OpenAI: 我们正在推出GeneBench-Pro，这是一个研究级基准测试，用于衡量一种更难实现的AI进步：智能体在导航…

GENEB：为何基因组模型难以相互比较

AlphaGenome：用于更好地理解基因组的人工智能

Procgen Benchmark

提交意见反馈