2026年6月5日 - 科学: 让Claude成为化学家
摘要
Anthropic正在与化学家合作,提升Claude的化学能力,首先发布了一份白皮书,比较Claude在核磁共振波谱分析中的表现与ChemDraw的差异。
暂无内容
查看缓存全文
缓存时间: 2026/06/05 20:10
# 打造化学家Claude
来源:https://www.anthropic.com/research/making-claude-a-chemist
*摘要:我们正与世界一流的合成、计算和分析化学家合作,提升Claude在化学领域的表现。本文分享了这项工作的首批成果,由Anthropic化学家David Kamber检验Claude如何处理化学家最常用的分析输入——NMR谱图。*
在处理分子时,化学家需要在白板上的手绘结构、仪器读数、数据库查询字符串以及专利与出版物中的技术符号之间来回切换。每一种表示都编码了相同的底层化学信息,但每种都要求不同的熟练度。例如,咖啡因的草图能让化学家看出它与体内困倦信号腺苷的相似性,并预测它通过阻断相应受体来保持我们清醒。然而,同样的草图却无法帮助化学家将其与其他外观近乎相同的分子区分开来。
理解化学家正在处理什么分子至关重要。化学支撑着我们摄入的食物和药物、护肤品、油漆和塑料。在同一批原子之间重新连接少数几个键,葡萄糖就变成了果糖——这两个分子拥有相同的化学式,却通过完全不同的代谢途径被处理。将一个分子翻转成它的镜像,镇静剂就变成了致畸剂,正如沙利度胺灾难中所发生的\[1\]。化学家的日常工作依赖于在适合特定任务的任何表示中正确解读这些信号。
在這些表示之间进行转换(从图中追查结构、将仪器读数与预期产物进行比对、以正确符号查询数据库)既耗时,又难以大规模跟上——化学文摘社(CAS)是全球最大的化学注册数据库,已收录超过2.9亿种公开物质,并且每天新增约1.5万种。
AI能够很好地承担这一研究负担,但在化学领域,这仍然很大程度上停留在理想层面。多年来,机器学习工具被视为在逆合成(从目标分子反向推导至更简单前体以规划合成路径)、反应预测和性质估计方面具有变革潜力,但这些工具所需的数据却难以获得——零结果数据稀疏、格式不统一、被订阅期刊的付费墙和结构化欠缺的支撑信息所阻隔。逆合成就是典型例子:具备能力的AI工具已存在多年,但应用并不均衡,普通学术或小型实验室的化学家仍然很少使用它们。
尽管如此,AI的进步终于开始触及化学领域。今天的尖端模型是多模态的,并且具备显式推理能力。它们可以直接从期刊图中的化学结构或手绘草图中读取化学结构,而无需依赖预先整理的分子数据库。它们还能以实际出版的形式阅读方法章节或支撑信息中的实验细节。它们还可以逐步展示其推理过程,这意味着化学家可以审查其输出。这些都无法消除该领域多年来一直描述的数据问题,但它改变了在数据问题存在的情况下哪些问题是可处理的。
最终,我们的主张是适度的:Claude正开始有意义地协助化学家完成日常的翻译、记忆和整合工作,这些工作补充了他们的判断力,我们计划持续扩展其有用性。今天,我们发布了加速这项工作的首份白皮书。它解决了化学家最常用的分析输入:NMR谱图。
## Claude 与 ChemDraw 在 NMR 预测和结构解析上的对比
**完整版可在此处查看(https://www-cdn.anthropic.com/07441e654ad3dfeb0cd090e9361511562825d012.pdf)**
几乎所有小分子——药物、农药、染料、香料、聚合物、DNA或蛋白质亚基、功能性无机或固态材料——都源于化学家确定了其结构。由于这些分子无法用显微镜观察,化学家必须依赖光谱分析,利用光、无线电波或磁场探测分子。给定分子吸收、发射或偏转这种能量的方式提供给化学家一个模式,或谱图,他们可以用它来解析其结构。
NMR波谱学——化学家依赖的经典技术之一——是合成化学中最耗时的步骤之一;对于每个化合物,化学家必须手动将谱图中的每个峰与所提议结构中的原子进行匹配。在这份白皮书中,我们测试了Claude与化学家目前依赖的专用NMR软件相比的表现。我们在20个化合物上测量了三个Claude模型(Opus 4.7、Opus 4.6、Sonnet 4.6)与ChemDraw和MestReNova的表现,这些化合物取自模型训练截止日期之后发布的合成化学预印本,以避免选择偏差。ChemDraw和MestReNova都进行正向预测,利用绘制出的结构模拟将产生的NMR谱图。除了正向预测,我们还希望检验Claude能否反向工作——从实验谱图出发并提议背后的结构。这是更困难的任务,也是现有软件目前留给化学家去做的事情。
为了建立评估,我们从模型训练截止日期后发布于ChemRxiv的预印本\[2\]中选取了20个化合物,取每篇论文中首个完全表征的新化合物。这20个化合物分布在四个结构家族中,每个家族五个化合物,每个家族因涉及不同类别的NMR挑战而被选中。每个工具被给予以SMILES字符串编码的结构——化学家用来将分子输入软件的文本行符号——并被要求预测每个氢和碳峰将落在1D NMR谱图(一个以ppm(百万分之一)为单位测量化学位移的水平轴)上的位置。鉴于NMR样品溶解在液体中,并且溶剂(氯仿、DMSO等)的选择会略微移动峰值位置,每个工具被告知要预测化学家在已发表论文中使用的溶剂中的谱图。
四种骨架类别的图表
*图1. 正向预测评估涵盖的四种骨架类别。每种探究不同类别的NMR挑战。P1 氯代哒嗪在DMSO-d6中具有慢交换的氨基哒嗪NH;P2 Boc-N-芳基马来酰亚胺和N-Boc炔酰胺测试α-乙烯基-酰亚胺羰基和罕见的炔酰胺α/β-碳对;P3 螺环酮是带有苯甲酰甲基或乙酰基侧基的螺双环酮和非对映异位CH2;P4 α-硅基甲磺酰胺具有受屏蔽的硅-α碳。每个类别五个化合物,总共n=20。*
由于语言模型的输出在不同运行之间有所不同,每个Claude模型对每个化合物查询三次并取平均;ChemDraw和MestReNova每次返回相同答案,因而只运行一次。然后我们将每个预测峰与其实验对应峰配对,并测量ppm差值。这些差值落在化学家认为正确的窗口内——氢为±0.20 ppm,碳为±1.0 ppm。
每工具MAE/RMSE总结图
*图2. 正向预测中20个化合物在1H(左)和13C(右)位移误差方面的每工具MAE(较深色)和RMSE(较浅色),工具下方显示覆盖率。Claude条形图:三个重复的均值,带有最小值-最大值范围和叠加的重复点。经典工具:单点预测(无范围)。*
在氢方面,Opus 4.7最准确,平均误差为±0.079 ppm——远低于容差窗口的一半——并且在该窗口内的峰比例最高。在碳方面,Opus 4.7和MestReNova基本持平,分别为±1.37和±1.48 ppm;其余工具在两个元素上保持相同的排名顺序。Opus 4.6处于预期的中等水平,Sonnet 4.6则最弱。它们之间的差距在一个众所周知的困难氢原子上最为明显:氯代哒嗪家族中的一个NH质子,其真实位置在6.8至7.9 ppm之间的窄带内。Opus 4.7将其置于略微偏低但一致的位置;Opus 4.6的猜测分散在几个ppm范围内;Sonnet 4.6则将其置于10-13范围,远超出实际出现位置。
每个化合物容差内准确度图表
*图3. 上方:实验原子落在±0.20 ppm(1H,左)和±1.0 ppm(13C,右)内的百分比。下方:每化合物胜率(工具具有最低每化合物MAE的化合物数,共20个)。Claude条形图:三个重复的均值,带有最小值-最大值范围;经典工具:单点预测。*
尽管Opus 4.7的表现与ChemDraw和MestReNova相当可比,但在预测氢NMR峰的形状以及峰间间距方面差距更大,这些特征也包含化学家与位置一同解读的结构信息。Opus 4.7比任何其他工具更频繁地匹配实验报告的裂分模式,并且所有三个Claude模型在大约80%的时间里将子峰间距预测在半赫兹以内——相比之下ChemDraw和MestReNova为26%至35%。Opus 4.7在其三次重复运行中也是最一致的:其平均误差在不同的运行之间变化小于将其与次优工具区分的差距。
接着,我们评估了逆预测(结构解析):我们能否从谱图中确定分子的结构?我们给了Opus 4.7十五个解析问题,并三次每次要求它提出最多三个经过排序的候选结构。每个问题提供了化合物的精确分子式(来自高分辨质谱)及其氢和碳NMR谱图。这十五个问题按难度划分。八个较简单的目标——单环或两片段分子——仅凭分子式和谱图提出。七个较密集的目标——稠环、螺环等——伴随一个额外提示:反应起始物料的结构。
结构解析图表
*图4. 15个逆任务问题的结构解析结果。每个面板显示已发表的目标及其在3次尝试中的成功次数。边框颜色表示提示条件:绿色为仅有谱图和HRMS,无起始物料背景;蓝色为谱图、HRMS和起始物料SMILES,无其他反应背景。*
Opus 4.7仅凭谱图和分子式就成功恢复了所有八个较简单结构,每次尝试均成功。在七个较困难的目标上,给定起始物料提示后,它在所有三次运行中正确返回了其中四个的结构,并在剩余三个目标中的两次运行中成功返回。
最终,我们发现对于常规数据预测,Opus 4.7——一个通用模型,没有经过化学特定微调——现在平均而言与ChemDraw和MestReNova一样好甚至更好。此外,Claude还可以反向运作,仅凭NMR数据就提出结构。专门的结构解析软件已存在数十年,但通常需要2D NMR(一个具有两个轴的谱图,输出是等值线图而不是一排峰)、专门训练和许可工具。Claude从化学家可以直接粘贴到聊天中的同一高分辨质谱和1D峰列表开始,无需任何设置。
### 局限性
本次评估表明,通用模型可以与NMR软件竞争,甚至使1D逆解析变得可行。但有几个值得注意的局限性。
- 首先,评估规模较小——正向任务中使用20个化合物,跨越四个骨架;逆向任务中使用15个——并且每个骨架贡献了单一类别的失败模式。因此模型表现应被视为指示性而非精确的。
- 其次,对于最密集的逆目标,如果没有起始物料作为额外输入,模型可能会在推理中循环而不确定最终结构;这就是为什么七个较困难的问题在提出时附带了起始物料结构而非仅谱图。
- 第三,某些化学骨架未经测试。例如,慢交换NH杂芳烃(其N-H与溶剂交换速度足够慢从而留下尖锐NMR峰的芳香环)仅通过氯代哒嗪进行了采样,排除了相关系统(羟基吡啶、氨基噻唑和其他DMSO-d6中的NH活性骨架)。
- 第四,2D实验(COSY、HSQC、HMBC)和立体化学按设计不在范围内,因为仅凭1D NMR无法确定构型。因此,复杂的天然产物化合物未进行评估。
- 最后,我们的溶剂覆盖范围仅限于DMSO-d6、CDCl3和D2O,因此甲醇-d4、苯-d6和丙酮-d6未进行评估。
理想情况下,我们希望在跨越20-30个骨架类别的几百个化合物上检验这些数字,每个类别至少15个化合物,以便将类内方差与工具间差异分离开。我们还将评估除氯代哒嗪以外的NH活性杂芳烃,评估未测试的溶剂,并开展利用2D实验的两种任务版本。
### 展望未来
随着我们持续改进Claude在化学领域的表现,我们特别关注那些最拖慢化学家速度的几个瓶颈。
- 化学结构的读取和渲染——将图、专利、幻灯片或草图转换为机器可读形式,并在结构表示与化学文献中使用的系统名称之间进行转换。
- 反应和合成推理——提出、评估和批评合成路线,预测结果,并思考选择性、条件和可能的副产物。
- 机理——用化学家实际使用的语言解释和测试反应机理,包括电子箭头、中间体和过渡态论证。
- 化学文献理解——阅读出版作品中出现的化学内容,其中同一分子可能以图形、名称、缩写或代码形式出现,并从方法章节、支撑信息和专利中提取出重要的化学信息。
这些任务的成熟度曲线并不相同。光谱分析已经足够成熟可以进行基准测试,而其他任务,如逆合成规划,仍处于范围界定阶段。随着我们对这些瓶颈有更深入的理解,我们将分享当前模型在哪些方面表现出色,以及在哪些方面仍然不足。我们的最终目标是确保工作化学家了解Claude在哪些方面可以节省他们的时间,以及哪些方面他们仍需依赖自己的专业知识。
## 与我们合作
我们正在扩展AI for Science项目(https://www.anthropic.com/news/ai-for-science-program),以更加明确地支持化学研究。如果您是一位研究人员,正在研究Claude可能提供帮助的问题,特别是涉及我们描述的那种多模态推理的问题,我们期待您的来信:[email protected],或通过AI for Science申请表联系我们。
### 脚注
1. 在此事件中,一种晨吐药物与全球超过一万名儿童的严重出生缺陷有关。
2. 我们从中提取化合物的四篇预印本:https://chemrxiv.org/doi/full/10.26434/chemrxiv.15002274/v1,https://chemrxiv.org/doi/full/10.26434/chemrxiv-2025-59lfh,https://chemrxiv.org/doi/full/10.26434/chemrxiv.15002423/v1,https://chemrxiv.org/doi/full/10.26434/chemrxiv.15002316/v1。
## 相关内容
相似文章
@AnthropicAI: 新Anthropic科学博客:让Claude成为化学家。要操控分子,化学家首先需要了解其结…
Anthropic的新博客文章详细介绍了Claude (Opus 4.7)如何解读NMR谱图,在某些任务上达到甚至超越专用软件,标志着向让AI对化学家有用迈出的一步。
2026年4月29日 科学 评估Claude的生物信息学研究能力:基于BioMysteryBench
Anthropic研究人员利用BioMysteryBench评估了Claude的生物信息学能力,发现当前模型的表现与人类专家相当,在某些复杂生物学问题上甚至优于人类专家。
2026年4月28日 公告 Claude for Creative Work
Anthropic 发布了一系列 Claude 连接器,可与 Adobe、Blender 和 Ableton 等主要创意软件集成,为设计、视频和音乐制作提供 AI 辅助工作流。
2026年6月12日 公告:TCS与Anthropic合作,将Claude引入受监管行业
TCS与Anthropic合作,将Claude引入受监管行业,在内部使用Claude,并为金融、医疗和公共部门的客户构建行业特定解决方案。
2026年4月30日 社会影响人们如何向Claude寻求个人指导
Anthropic发布了关于用户如何向Claude寻求个人指导的研究,重点介绍了不同领域中美言奉承率(sycophancy rates)的研究发现。该研究为Claude Opus 4.7和Mythos Preview的训练提供了参考,以更好地保护用户福祉。