AI科学家何时应停止?面向自主发现的可验证实验引导与拒绝机制

arXiv cs.LG 论文

摘要

本文介绍了Cartograph,一种为AI科学家设计的验证层,它结合了子空间实验引导、模糊性解析和库不充分检测。该框架在自主发现测试平台上优于基线,并回顾性地标记了A-Lab材料系统中不明确的声明。

arXiv:2606.07576v1 Announce Type: new 摘要:我们提出了CARTOGRAPH,一种为AI科学家设计的验证层,它结合了未解析子空间实验引导(选择)、显式模糊性闭合(解析)和基于残差的库不充分检测(拒绝)。在局部线性-高斯桥接下,原始未解析投影是各向同性未解析Fisher信息迹,而CARTOGRAPH-A是精确的未解析A最优规则;闭式EIG和Box-Hill作为局部比较器而非全局等价物出现。跨五个测试平台,在d=8的复制结构化级联中,CARTOGRAPH-A以129胜/0平/15负(p<10^-21)击败原始投影。更显著的是,该框架初步识别了三个库外药代动力学机制,但当残差暴露结构不匹配时撤销了这些识别,而一个扰动的库内对照则始终被识别。在低维药代动力学和过滤后的EPA设置中,理论上预测并观察到了与分歧接近平局的情况。最后,对已发表的A-Lab自主材料系统中40条阳性声明进行回顾性审计时,拒绝守卫标记了所有4条后来在人工再分析中被标记为不确定的声明,同时通过了32/36条已确认的声明。代码可在https://github.com/ai4science-boed/cartograph.git获取。
查看原文
查看缓存全文

缓存时间: 2026/06/09 08:46

# 人工智能科学家何时应该停止?用于自主发现的可验证实验导航与拒绝机制 来源:https://arxiv.org/html/2606.07576 ###### 摘要 本文提出**Cartograph**,一个面向AI科学家的验证层,该层耦合了基于未解析子空间的实验导航(*选择*)、显式模糊性闭合(*解决*)以及基于残差的库不足检测(*拒绝*)。在局部线性-高斯桥接下,原始未解析投影即为各向同性未解析Fisher信息迹,而**Cartograph-A**则是精确的未解析A-最优准则;闭式EIG和Box–Hill作为局部比较量出现,而非全局等价量。在五个测试平台上,**Cartograph-A**在维度\(d=8\)时以129胜/0平/15负(\(p<10^{-21}\))的成绩在复现的结构化级联任务中击败了原始投影。更独特的是,该框架初步识别了三个库外的药代动力学机制,随后当残差暴露出结构性失配时*撤销*了这些识别结果,而一个经过扰动的库内对照则始终被正确识别。在低维药代动力学和经过筛选的EPA数据设置中,理论预测并如实观察到了与简单分歧启发式方法之间的平局。最后,在对已发表的A-Lab自主材料系统40个正向声明的回顾性审计中,该拒绝机制标记了所有4个随后在人工复核中被认定为不确定的声明,同时通过了36个已确认声明中的32个。 人工智能科学,自主发现,实验设计,模型判别,拒绝,治理 ## 1 引言 AI系统目前正在参与闭环科学发现:大语言模型规划器提出实验,自动化实验室执行实验,统计或神经模块解释数据(King et al., 2009 (https://arxiv.org/html/2606.07576#bib.bib8); Burger et al., 2020 (https://arxiv.org/html/2606.07576#bib.bib9); Boiko et al., 2023 (https://arxiv.org/html/2606.07576#bib.bib1); Szymanski et al., 2023 (https://arxiv.org/html/2606.07576#bib.bib3); Lu et al., 2024 (https://arxiv.org/html/2606.07576#bib.bib2); Bran et al., 2024 (https://arxiv.org/html/2606.07576#bib.bib39); Wang et al., 2023 (https://arxiv.org/html/2606.07576#bib.bib7))。补充工作已产生端到端的自动化科学能力——高精度蛋白质结构预测(Jumper et al., 2021 (https://arxiv.org/html/2606.07576#bib.bib6))、规模化材料发现(Merchant et al., 2023 (https://arxiv.org/html/2606.07576#bib.bib5))以及从数据中发现的符号方程(Schmidt and Lipson, 2009 (https://arxiv.org/html/2606.07576#bib.bib22); Brunton et al., 2016 (https://arxiv.org/html/2606.07576#bib.bib23); Udrescu and Tegmark, 2020 (https://arxiv.org/html/2606.07576#bib.bib24); Cranmer et al., 2020 (https://arxiv.org/html/2606.07576#bib.bib25))——但这些系统均未能在库或假设空间结构性不足时发出可验证的*拒绝*信号。在这种设定下,瓶颈不再是*提出*实验——大语言模型生成的候选实验比实验室能执行的更多——而是在于决定*哪些*实验真正具有信息量,*何时*当前的机制问题得到解决,以及*何时*系统应完全停止做出声明,因为其所搜索的模型库在结构上是错误的。

本文将AI科学家的验证与导航层建模为三个相互关联的决策: **选择**。哪个候选实验最能直接减少当前未解析的科学歧义? **解决**。何时歧义足够小,可以宣布某个机制问题已被回答? **拒绝**。何时系统应停止识别当前库中的任何模型,因为库本身不足?

现有的现代贝叶斯实验设计(BOED)(Chaloner and Verdinelli, 1995 (https://arxiv.org/html/2606.07576#bib.bib11); Ryan et al., 2016 (https://arxiv.org/html/2606.07576#bib.bib12); Rainforth et al., 2024 (https://arxiv.org/html/2606.07576#bib.bib13); Foster et al., 2019 (https://arxiv.org/html/2606.07576#bib.bib14); Kleinegesse and Gutmann, 2020 (https://arxiv.org/html/2606.07576#bib.bib15); Blau et al., 2022 (https://arxiv.org/html/2606.07576#bib.bib16); Foster et al., 2021 (https://arxiv.org/html/2606.07576#bib.bib20))充分回答了*选择*问题。经典的模型判别准则(Box and Hill, 1967 (https://arxiv.org/html/2606.07576#bib.bib17); Atkinson and Fedorov, 1975 (https://arxiv.org/html/2606.07576#bib.bib18); Pukelsheim, 2006 (https://arxiv.org/html/2606.07576#bib.bib19))回答了*选择*和*解决*的受限形式。但两者均未将*拒绝*作为第一类输出:BOED假设先验支持包含真相;模型判别则假设至少有一个对手模型是正确的。对于高风险的自主发现——如临床药代动力学、材料合成、毒理学——这一差距至关重要。

#### 贡献。 我们贡献了:(i)一个形式化的*访问模型*区分,将科学库的符号查询和行为查询分开,并给出一个清晰的覆盖度-秩恢复刻画;(ii)**Cartograph**,一个验证与导航层,结合了用于*选择*/*解决*的未解析子空间导航,以及一个基于残差和间隙的*拒绝*守卫;(iii)一个局部BOED桥接:精确的未解析Fisher信息恒等式,精确的\(k=1\)后验方差等价性,以及闭式EIG的一阶联系,连同Box–Hill的各向同性极限约化;(iv)一个精确的随机候选标度律,*预测*何时未解析子空间方法仅能与简单的分歧启发式方法打平,以及何时它们将占据主导;(v)跨符号动力系统、可扩展的结构化非线性级联、药代动力学模型库基准、公开EPA真实时间序列以及对A-Lab自主材料声明的回顾性审计的实证证据,包括强复现的\(d \in \{2,4,8,16\}\)级联(\(d=8\)时\(p < 10^{-21}\)),针对三个库外药代动力学机制的原则性拒绝基准,以及一个标记了所有4/4个修正后不确定正向声明的A-Lab审计;(vi)一个完整的大语言模型在环附录示例,展示**Cartograph**如何作为大语言模型规划AI科学家的验证层嵌入。

#### 论文的诚实定位。 我们最独特的实证发现并非普适的选择增益。在低维药代动力学中,相对于分歧启发式方法的增益确实适中,我们的标度理论也准确预测了这一点。我们独特的发现在于*撤销*:对于三个库外机制,该框架早期表现出自信,随后随着更多证据暴露结构失配而撤回这些识别,而一个经过扰动的库内对照则始终保持被识别。我们认为,这正是被治理的AI科学家所需要的:在同一个选择下一个实验的序贯循环内,发出一个可审计的“停止并上报”信号。 ## 2 问题设置 ### 2.1 具有共享机制基础的模型库 设\(\Phi = \{\phi_1, \ldots, \phi_p\}\)为共享机制基础,并设真实定律为\(T(x) = \sum_{j=1}^p a_j^\star \phi_j(x)\)。一个*库*\(\mathcal{M} = \{M_1, \ldots, M_L\}\)保留\(\Phi\)的不同子集,可能带有不同的保留系数。*争议分量*\(a_C^\star \in \mathbb{R}^{p_C}\)是库成员不同意的坐标子向量。解决\(a_C^\star\)是科学任务。 ### 2.2 两种访问模型 问题随着AI科学家实际能观测到的内容而变化。 #### 符号访问。 智能体直接检查保留的系数向量。在仅含遗漏的保留(库要么保留一个基础项及其真实系数,要么丢弃它)下,恢复是一个*覆盖度*性质:\(a^\star\)可唯一恢复当且仅当每个机制至少出现在一个库成员中。 #### 行为访问。 智能体无法读取系数向量。它运行由\(e\)索引的实验,并观察模型对之间的分歧特征,这些特征组装成设计 \(y = H a_C^\star + \varepsilon,\quad H \in \mathbb{R}^{n \times p_C},\)  其中\(H\)的行是由实验诱导的争议机制的线性泛函。恢复现在是一个*秩*性质。方程 (1) 是支配本文所有实验结果的反问题。行为机制匹配当前AI科学家的部署模式:系统查询模拟器、实验室机器人或工具端点,并观察数值输出,而非符号方程。除非另有说明,我们在此机制下工作。 ## 3 CARTOGRAPH框架 ### 3.1 未解析子空间 设\(H_{\text{cur}}\)为迄今为止累积的争议矩阵,其右奇异向量为\(v_1, \ldots, v_{p_C}\),奇异值为\(\sigma_1 \geq \cdots \geq \sigma_{p_C} \geq 0\)。给定阈值\(\tau \geq 0\),*未解析子空间*为 \(U_\tau = \operatorname{span}\{v_j : \sigma_j \leq \tau\}.\)  通过构造,\(U_\tau\)是争议系数空间中当前累积实验携带很少或没有信息的部分。在精确设置(\(\tau=0\))中,它等于\(\ker(H_{\text{cur}})\)。 #### 显式\(H_e\)构造。 对于候选实验\(e\),设\(g_{\ell,e}(z) \in \mathbb{R}^{n_e}\)表示库成员\(m_\ell\)作为争议坐标\(z \in \mathbb{R}^{|C|}\)的函数的预测可观测值。在当前拟合附近线性化得 \(g_{\ell,e}(z) \approx g_{\ell,e}(0) + J_{\ell,e}z,\quad J_{\ell,e} \in \mathbb{R}^{n_e \times |C|}.\) 对于每个模型对\((i,j)\),定义局部争议块 \(D_{ij,e} := J_{i,e} - J_{j,e} \in \mathbb{R}^{n_e \times |C|},\) 因此\(D_{ij,e}z\)是实验\(e\)上由争议坐标扰动\(z\)引起的成对预测差异的一阶变化。然后我们堆叠所有成对块: \(H_e = \begin{bmatrix} D_{12,e} \\ D_{13,e} \\ \vdots \\ D_{(L-1)L,e} \end{bmatrix} \in \mathbb{R}^{\binom{L}{2} n_e \times |C|},\)  且\(H_e z\)是实验\(e\)上成对预测差异的一阶向量。在共享基础仅遗漏机制下,\(J_{\ell,e} = \Phi_{e,C} S_\ell\),其中\(S_\ell\)是争议坐标上的选择映射,因此\(D_{ij,e} = \Phi_{e,C} (S_i - S_j)\)。因此,\(H_e U_\tau\)衡量实验\(e\)对累积实验尚未消除歧义的方向作用的强度。附录C给出了一个小型工作示例。 ### 3.2 选择 对于候选实验块\(H_e\),各向同性未解析投影得分为 \(\operatorname{score}_{\mathrm{cart}}(e) = \left\lVert H_e U_\tau \right\rVert_F^2.\)  在具有噪声协方差\(\Sigma_e\)的局部线性高斯模型下,考虑噪声的未解析信息矩阵为 \(G_e = U_\tau^\top H_e^\top \Sigma_e^{-1} H_e U_\tau,\)  其迹是\(U_\tau\)上的精确Fisher信息迹。当当前未解析后验协方差为\(\Lambda_{\text{cur}}\)时,精确A-最优未解析得分为 \(\operatorname{score}_{\mathrm{A}}(e) = \operatorname{tr}(\Lambda_{\text{cur}}) - \operatorname{tr}\big((\Lambda_{\text{cur}}^{-1} + G_e)^{-1}\big).\)  我们将该框架称为**Cartograph**;默认采集规则使用 (6),除非另有说明,原始投影得分 (4) 作为各向同性特例和消融实验报告。 ### 3.3 解决 该框架使用与选择相同的对象来认证解决。具体而言,当在精确机制中\(\dim(U_\tau) = 0\),或在近似机制中累积争议矩阵的最小奇异值超过\(\tau\)时,歧义被解决。对于自主循环而言,这是一个即插即用的“我们完成了吗?”信号。 ### 3.4 拒绝 解决认证了相对于库的歧义已经闭合。它并不认证最拟合的库成员是正确的。因此,拒绝是一个附加在同一序贯循环上的基于残差的守卫,而非仅从\(U_\tau\)导出的量。因此,我们附加两个物理上可解释的诊断指标: \(\rho = \frac{\min_{\ell \in [L]} \left\lVert y_{\mathrm{obs}} - f_{m_\ell}(\hat{\theta}_\ell) \right\rVert_2}{\left\lVert \phi(y_{\mathrm{obs}}) \right\rVert_2},\)  \(\mu = \mathrm{BIC}(m_{(2)}) - \mathrm{BIC}(m_{(1)}),\)  其中\(\hat{\theta}_\ell\)是库成员\(m_\ell\)对累积数据\(y_{\mathrm{obs}}\)的最大似然拟合,\(\phi(\cdot)\)是附录J中使用的物理上有意义的摘要特征向量(此处为\(C_{\max}\)、终末斜率、对数线性RMSE),而\(m_{(1)}\)、\(m_{(2)}\)是按BIC排序的前两个库成员。我们仅在\(\rho \leq \delta\)且\(\mu \geq \mu_{\min}\)时宣布*识别*。由于\(\rho\)在每一步都被监控,初步识别可以被*撤销*:系统可以在早期轮次声明一个模型,并在后续轮次暴露出结构性失配时撤回该声明。我们通过实验表明,这是在库外机制上的主导行为。 ### 3.5 算法 **算法1** Cartograph:选择 / 解决 / 拒绝循环 **输入**:库\(\mathcal{M}\),候选菜单\(\mathcal{E}\),阈值\((\tau, \delta, \mu_{\min})\),预算\(B\) \(H_{\text{cur}} \leftarrow\) 来自热启动实验的设计 **for** \(t=1, \ldots, B\) **do** \(U_\tau \leftarrow\) \(H_{\text{cur}}\)的右奇异向量,其中\(\sigma \leq \tau\) **if** \(\dim(U_\tau) = 0\) **then** {解决} break **endif** \(e^\star \leftarrow \arg\max_{e \in \mathcal{E}} \operatorname{score}_{\mathrm{A}}(e)\) {默认;使用\(\operatorname{score}_{\mathrm{cart}}\)作为各向同性消融} 执行\(e^\star\);将块\(H_{e^\star}\)追加到\(H_{\text{cur}}\) \(\rho \leftarrow\) 最佳库拟合的归一化残差 **if** \(\rho > \delta\) **then** {拒绝 / 撤销任何初步识别} 标记库不足;继续 **elseif** 识别间隙 \(> \mu_{\min}\) **then** 初步识别最佳拟合模型 **else** {库拟合可接受但歧义仍存在;保持未决定} **endif** **endfor** **输出**:已解决 / 已识别 / 已拒绝状态,\((\rho, U_\tau)\) 算法1是完整的选择-解决-拒绝循环,并在以下每个实证章节中运行。它恰好包含三个超参数,每个都是物理上可解释的:\(\tau\)阈值化“未解析”奇异值,\(\delta\)是声明库结构不足的残差上限,\(\mu_{\min}\)是调用获胜模型所需的识别间隙。 ### 3.6 估计\(\Lambda_{\text{cur}}\)

相似文章

ScientistOne:通过 Chain-of-Evidence 实现人类级自主研究

arXiv cs.AI

ScientistOne 引入了 Chain-of-Evidence,这是一个面向自主研究代理的可验证性框架,确保每个声明都可追溯到证据来源。该框架实现了零幻觉引用、完美的分数验证,并在 75 篇论文中达到了最高的方法-代码对齐度,同时在五个前沿研究任务上达到或超过了人类专家水平。

AI 自动研究:路线图与用户指南

Hugging Face Daily Papers

本文调研了AI在整个研究生命周期中的能力与局限,从创意生成到成果发布,识别出可靠辅助与不可靠自主之间的明确界限。它提供了一个分类体系、基准测试套件、工具清单以及人类主导的AI协作研究设计原则。

三思而后行:LLM 智能体的自主探索

Hugging Face Daily Papers

本文指出自主探索是大语言模型智能体的关键能力,并提出了先探索后行动范式,该范式将信息收集与任务执行解耦,以提升适应性和实际性能。同时引入了探索检查点覆盖率作为可验证的指标,用于评估探索的广度。

Open ai

Reddit r/ArtificialInteligence

文章讨论了行业共识:人工智能正变得极其强大,但在高风险任务上的可靠性仍是一个未解决的工程问题。强调当前系统优化的是合理性而非确定性真理,前进方向是分层验证系统而非单一完美模型。

提升 AI 开发中的可验证性

OpenAI Blog

OpenAI 发布了一份报告,介绍了提升 AI 开发可验证性的机制,说明了利益相关者如何验证组织关于 AI 系统属性和安全实践的声明。