AI科学家何时应停止？面向自主发现的可验证实验引导与拒绝机制

arXiv cs.LG 2026/06/09 04:00 论文

摘要

本文介绍了Cartograph，一种为AI科学家设计的验证层，它结合了子空间实验引导、模糊性解析和库不充分检测。该框架在自主发现测试平台上优于基线，并回顾性地标记了A-Lab材料系统中不明确的声明。

arXiv:2606.07576v1 Announce Type: new 摘要：我们提出了CARTOGRAPH，一种为AI科学家设计的验证层，它结合了未解析子空间实验引导（选择）、显式模糊性闭合（解析）和基于残差的库不充分检测（拒绝）。在局部线性-高斯桥接下，原始未解析投影是各向同性未解析Fisher信息迹，而CARTOGRAPH-A是精确的未解析A最优规则；闭式EIG和Box-Hill作为局部比较器而非全局等价物出现。跨五个测试平台，在d=8的复制结构化级联中，CARTOGRAPH-A以129胜/0平/15负（p<10^-21）击败原始投影。更显著的是，该框架初步识别了三个库外药代动力学机制，但当残差暴露结构不匹配时撤销了这些识别，而一个扰动的库内对照则始终被识别。在低维药代动力学和过滤后的EPA设置中，理论上预测并观察到了与分歧接近平局的情况。最后，对已发表的A-Lab自主材料系统中40条阳性声明进行回顾性审计时，拒绝守卫标记了所有4条后来在人工再分析中被标记为不确定的声明，同时通过了32/36条已确认的声明。代码可在https://github.com/ai4science-boed/cartograph.git获取。

查看原文

查看缓存全文

缓存时间: 2026/06/09 08:46

# 人工智能科学家何时应该停止？用于自主发现的可验证实验导航与拒绝机制 来源：https://arxiv.org/html/2606.07576 ###### 摘要 本文提出**Cartograph**，一个面向AI科学家的验证层，该层耦合了基于未解析子空间的实验导航（*选择*）、显式模糊性闭合（*解决*）以及基于残差的库不足检测（*拒绝*）。在局部线性-高斯桥接下，原始未解析投影即为各向同性未解析Fisher信息迹，而**Cartograph-A**则是精确的未解析A-最优准则；闭式EIG和Box–Hill作为局部比较量出现，而非全局等价量。在五个测试平台上，**Cartograph-A**在维度\(d=8\)时以129胜/0平/15负（\(p<10^{-21}\)）的成绩在复现的结构化级联任务中击败了原始投影。更独特的是，该框架初步识别了三个库外的药代动力学机制，随后当残差暴露出结构性失配时*撤销*了这些识别结果，而一个经过扰动的库内对照则始终被正确识别。在低维药代动力学和经过筛选的EPA数据设置中，理论预测并如实观察到了与简单分歧启发式方法之间的平局。最后，在对已发表的A-Lab自主材料系统40个正向声明的回顾性审计中，该拒绝机制标记了所有4个随后在人工复核中被认定为不确定的声明，同时通过了36个已确认声明中的32个。 人工智能科学，自主发现，实验设计，模型判别，拒绝，治理 ## 1 引言 AI系统目前正在参与闭环科学发现：大语言模型规划器提出实验，自动化实验室执行实验，统计或神经模块解释数据（King et al., 2009 (https://arxiv.org/html/2606.07576#bib.bib8); Burger et al., 2020 (https://arxiv.org/html/2606.07576#bib.bib9); Boiko et al., 2023 (https://arxiv.org/html/2606.07576#bib.bib1); Szymanski et al., 2023 (https://arxiv.org/html/2606.07576#bib.bib3); Lu et al., 2024 (https://arxiv.org/html/2606.07576#bib.bib2); Bran et al., 2024 (https://arxiv.org/html/2606.07576#bib.bib39); Wang et al., 2023 (https://arxiv.org/html/2606.07576#bib.bib7)）。补充工作已产生端到端的自动化科学能力——高精度蛋白质结构预测（Jumper et al., 2021 (https://arxiv.org/html/2606.07576#bib.bib6)）、规模化材料发现（Merchant et al., 2023 (https://arxiv.org/html/2606.07576#bib.bib5)）以及从数据中发现的符号方程（Schmidt and Lipson, 2009 (https://arxiv.org/html/2606.07576#bib.bib22); Brunton et al., 2016 (https://arxiv.org/html/2606.07576#bib.bib23); Udrescu and Tegmark, 2020 (https://arxiv.org/html/2606.07576#bib.bib24); Cranmer et al., 2020 (https://arxiv.org/html/2606.07576#bib.bib25)）——但这些系统均未能在库或假设空间结构性不足时发出可验证的*拒绝*信号。在这种设定下，瓶颈不再是*提出*实验——大语言模型生成的候选实验比实验室能执行的更多——而是在于决定*哪些*实验真正具有信息量，*何时*当前的机制问题得到解决，以及*何时*系统应完全停止做出声明，因为其所搜索的模型库在结构上是错误的。

本文将AI科学家的验证与导航层建模为三个相互关联的决策： **选择**。哪个候选实验最能直接减少当前未解析的科学歧义？ **解决**。何时歧义足够小，可以宣布某个机制问题已被回答？ **拒绝**。何时系统应停止识别当前库中的任何模型，因为库本身不足？

现有的现代贝叶斯实验设计（BOED）（Chaloner and Verdinelli, 1995 (https://arxiv.org/html/2606.07576#bib.bib11); Ryan et al., 2016 (https://arxiv.org/html/2606.07576#bib.bib12); Rainforth et al., 2024 (https://arxiv.org/html/2606.07576#bib.bib13); Foster et al., 2019 (https://arxiv.org/html/2606.07576#bib.bib14); Kleinegesse and Gutmann, 2020 (https://arxiv.org/html/2606.07576#bib.bib15); Blau et al., 2022 (https://arxiv.org/html/2606.07576#bib.bib16); Foster et al., 2021 (https://arxiv.org/html/2606.07576#bib.bib20)）充分回答了*选择*问题。经典的模型判别准则（Box and Hill, 1967 (https://arxiv.org/html/2606.07576#bib.bib17); Atkinson and Fedorov, 1975 (https://arxiv.org/html/2606.07576#bib.bib18); Pukelsheim, 2006 (https://arxiv.org/html/2606.07576#bib.bib19)）回答了*选择*和*解决*的受限形式。但两者均未将*拒绝*作为第一类输出：BOED假设先验支持包含真相；模型判别则假设至少有一个对手模型是正确的。对于高风险的自主发现——如临床药代动力学、材料合成、毒理学——这一差距至关重要。

#### 贡献。 我们贡献了：（i）一个形式化的*访问模型*区分，将科学库的符号查询和行为查询分开，并给出一个清晰的覆盖度-秩恢复刻画；（ii）**Cartograph**，一个验证与导航层，结合了用于*选择*/*解决*的未解析子空间导航，以及一个基于残差和间隙的*拒绝*守卫；（iii）一个局部BOED桥接：精确的未解析Fisher信息恒等式，精确的\(k=1\)后验方差等价性，以及闭式EIG的一阶联系，连同Box–Hill的各向同性极限约化；（iv）一个精确的随机候选标度律，*预测*何时未解析子空间方法仅能与简单的分歧启发式方法打平，以及何时它们将占据主导；（v）跨符号动力系统、可扩展的结构化非线性级联、药代动力学模型库基准、公开EPA真实时间序列以及对A-Lab自主材料声明的回顾性审计的实证证据，包括强复现的\(d \in \{2,4,8,16\}\)级联（\(d=8\)时\(p < 10^{-21}\)），针对三个库外药代动力学机制的原则性拒绝基准，以及一个标记了所有4/4个修正后不确定正向声明的A-Lab审计；（vi）一个完整的大语言模型在环附录示例，展示**Cartograph**如何作为大语言模型规划AI科学家的验证层嵌入。

#### 论文的诚实定位。 我们最独特的实证发现并非普适的选择增益。在低维药代动力学中，相对于分歧启发式方法的增益确实适中，我们的标度理论也准确预测了这一点。我们独特的发现在于*撤销*：对于三个库外机制，该框架早期表现出自信，随后随着更多证据暴露结构失配而撤回这些识别，而一个经过扰动的库内对照则始终保持被识别。我们认为，这正是被治理的AI科学家所需要的：在同一个选择下一个实验的序贯循环内，发出一个可审计的“停止并上报”信号。 ## 2 问题设置 ### 2.1 具有共享机制基础的模型库 设\(\Phi = \{\phi_1, \ldots, \phi_p\}\)为共享机制基础，并设真实定律为\(T(x) = \sum_{j=1}^p a_j^\star \phi_j(x)\)。一个*库*\(\mathcal{M} = \{M_1, \ldots, M_L\}\)保留\(\Phi\)的不同子集，可能带有不同的保留系数。*争议分量*\(a_C^\star \in \mathbb{R}^{p_C}\)是库成员不同意的坐标子向量。解决\(a_C^\star\)是科学任务。 ### 2.2 两种访问模型 问题随着AI科学家实际能观测到的内容而变化。 #### 符号访问。 智能体直接检查保留的系数向量。在仅含遗漏的保留（库要么保留一个基础项及其真实系数，要么丢弃它）下，恢复是一个*覆盖度*性质：\(a^\star\)可唯一恢复当且仅当每个机制至少出现在一个库成员中。 #### 行为访问。 智能体无法读取系数向量。它运行由\(e\)索引的实验，并观察模型对之间的分歧特征，这些特征组装成设计 \(y = H a_C^\star + \varepsilon,\quad H \in \mathbb{R}^{n \times p_C},\)  其中\(H\)的行是由实验诱导的争议机制的线性泛函。恢复现在是一个*秩*性质。方程 (1) 是支配本文所有实验结果的反问题。行为机制匹配当前AI科学家的部署模式：系统查询模拟器、实验室机器人或工具端点，并观察数值输出，而非符号方程。除非另有说明，我们在此机制下工作。 ## 3 CARTOGRAPH框架 ### 3.1 未解析子空间 设\(H_{\text{cur}}\)为迄今为止累积的争议矩阵，其右奇异向量为\(v_1, \ldots, v_{p_C}\)，奇异值为\(\sigma_1 \geq \cdots \geq \sigma_{p_C} \geq 0\)。给定阈值\(\tau \geq 0\)，*未解析子空间*为 \(U_\tau = \operatorname{span}\{v_j : \sigma_j \leq \tau\}.\)  通过构造，\(U_\tau\)是争议系数空间中当前累积实验携带很少或没有信息的部分。在精确设置（\(\tau=0\)）中，它等于\(\ker(H_{\text{cur}})\)。 #### 显式\(H_e\)构造。 对于候选实验\(e\)，设\(g_{\ell,e}(z) \in \mathbb{R}^{n_e}\)表示库成员\(m_\ell\)作为争议坐标\(z \in \mathbb{R}^{|C|}\)的函数的预测可观测值。在当前拟合附近线性化得 \(g_{\ell,e}(z) \approx g_{\ell,e}(0) + J_{\ell,e}z,\quad J_{\ell,e} \in \mathbb{R}^{n_e \times |C|}.\) 对于每个模型对\((i,j)\)，定义局部争议块 \(D_{ij,e} := J_{i,e} - J_{j,e} \in \mathbb{R}^{n_e \times |C|},\) 因此\(D_{ij,e}z\)是实验\(e\)上由争议坐标扰动\(z\)引起的成对预测差异的一阶变化。然后我们堆叠所有成对块： \(H_e = \begin{bmatrix} D_{12,e} \\ D_{13,e} \\ \vdots \\ D_{(L-1)L,e} \end{bmatrix} \in \mathbb{R}^{\binom{L}{2} n_e \times |C|},\)  且\(H_e z\)是实验\(e\)上成对预测差异的一阶向量。在共享基础仅遗漏机制下，\(J_{\ell,e} = \Phi_{e,C} S_\ell\)，其中\(S_\ell\)是争议坐标上的选择映射，因此\(D_{ij,e} = \Phi_{e,C} (S_i - S_j)\)。因此，\(H_e U_\tau\)衡量实验\(e\)对累积实验尚未消除歧义的方向作用的强度。附录C给出了一个小型工作示例。 ### 3.2 选择 对于候选实验块\(H_e\)，各向同性未解析投影得分为 \(\operatorname{score}_{\mathrm{cart}}(e) = \left\lVert H_e U_\tau \right\rVert_F^2.\)  在具有噪声协方差\(\Sigma_e\)的局部线性高斯模型下，考虑噪声的未解析信息矩阵为 \(G_e = U_\tau^\top H_e^\top \Sigma_e^{-1} H_e U_\tau,\)  其迹是\(U_\tau\)上的精确Fisher信息迹。当当前未解析后验协方差为\(\Lambda_{\text{cur}}\)时，精确A-最优未解析得分为 \(\operatorname{score}_{\mathrm{A}}(e) = \operatorname{tr}(\Lambda_{\text{cur}}) - \operatorname{tr}\big((\Lambda_{\text{cur}}^{-1} + G_e)^{-1}\big).\)  我们将该框架称为**Cartograph**；默认采集规则使用 (6)，除非另有说明，原始投影得分 (4) 作为各向同性特例和消融实验报告。 ### 3.3 解决 该框架使用与选择相同的对象来认证解决。具体而言，当在精确机制中\(\dim(U_\tau) = 0\)，或在近似机制中累积争议矩阵的最小奇异值超过\(\tau\)时，歧义被解决。对于自主循环而言，这是一个即插即用的“我们完成了吗？”信号。 ### 3.4 拒绝 解决认证了相对于库的歧义已经闭合。它并不认证最拟合的库成员是正确的。因此，拒绝是一个附加在同一序贯循环上的基于残差的守卫，而非仅从\(U_\tau\)导出的量。因此，我们附加两个物理上可解释的诊断指标： \(\rho = \frac{\min_{\ell \in [L]} \left\lVert y_{\mathrm{obs}} - f_{m_\ell}(\hat{\theta}_\ell) \right\rVert_2}{\left\lVert \phi(y_{\mathrm{obs}}) \right\rVert_2},\)  \(\mu = \mathrm{BIC}(m_{(2)}) - \mathrm{BIC}(m_{(1)}),\)  其中\(\hat{\theta}_\ell\)是库成员\(m_\ell\)对累积数据\(y_{\mathrm{obs}}\)的最大似然拟合，\(\phi(\cdot)\)是附录J中使用的物理上有意义的摘要特征向量（此处为\(C_{\max}\)、终末斜率、对数线性RMSE），而\(m_{(1)}\)、\(m_{(2)}\)是按BIC排序的前两个库成员。我们仅在\(\rho \leq \delta\)且\(\mu \geq \mu_{\min}\)时宣布*识别*。由于\(\rho\)在每一步都被监控，初步识别可以被*撤销*：系统可以在早期轮次声明一个模型，并在后续轮次暴露出结构性失配时撤回该声明。我们通过实验表明，这是在库外机制上的主导行为。 ### 3.5 算法 **算法1** Cartograph：选择 / 解决 / 拒绝循环 **输入**：库\(\mathcal{M}\)，候选菜单\(\mathcal{E}\)，阈值\((\tau, \delta, \mu_{\min})\)，预算\(B\) \(H_{\text{cur}} \leftarrow\) 来自热启动实验的设计 **for** \(t=1, \ldots, B\) **do** \(U_\tau \leftarrow\) \(H_{\text{cur}}\)的右奇异向量，其中\(\sigma \leq \tau\) **if** \(\dim(U_\tau) = 0\) **then** {解决} break **endif** \(e^\star \leftarrow \arg\max_{e \in \mathcal{E}} \operatorname{score}_{\mathrm{A}}(e)\) {默认；使用\(\operatorname{score}_{\mathrm{cart}}\)作为各向同性消融} 执行\(e^\star\)；将块\(H_{e^\star}\)追加到\(H_{\text{cur}}\) \(\rho \leftarrow\) 最佳库拟合的归一化残差 **if** \(\rho > \delta\) **then** {拒绝 / 撤销任何初步识别} 标记库不足；继续 **elseif** 识别间隙 \(> \mu_{\min}\) **then** 初步识别最佳拟合模型 **else** {库拟合可接受但歧义仍存在；保持未决定} **endif** **endfor** **输出**：已解决 / 已识别 / 已拒绝状态，\((\rho, U_\tau)\) 算法1是完整的选择-解决-拒绝循环，并在以下每个实证章节中运行。它恰好包含三个超参数，每个都是物理上可解释的：\(\tau\)阈值化“未解析”奇异值，\(\delta\)是声明库结构不足的残差上限，\(\mu_{\min}\)是调用获胜模型所需的识别间隙。 ### 3.6 估计\(\Lambda_{\text{cur}}\)

AI科学家何时应停止？面向自主发现的可验证实验引导与拒绝机制

相似文章

ScientistOne：通过 Chain-of-Evidence 实现人类级自主研究

AI 自动研究：路线图与用户指南

三思而后行：LLM 智能体的自主探索

Open ai

提升 AI 开发中的可验证性

提交意见反馈