科学发现作为元优化：一个组合优化案例研究

arXiv cs.AI 2026/06/26 04:00 论文

摘要

本文提出将科学发现形式化为一个元优化问题，其中LLM通过相关性加权投票生成并聚合目标函数，应用于使用数字MemComputing的3-SAT算法发现，在大规模实例上实现了67倍的加速。

arXiv:2606.26728v1 公告类型：新摘要：科学发现本质上是一个优化问题，由理论和实验的广阔“状态空间”以及基于质量、新颖性和有效性的评估标准所定义。大型语言模型（LLM）已经能够自动探索这一空间，但我们认为同时修改评估标准同样重要。在此，我们提出将研究形式化为元优化，即优化目标本身也在被优化。我们的关键贡献是“共识目标聚合”，即通过相关性加权投票将LLM生成的目标函数组合起来，产生一个稳定、自我修正的评估标准，该标准随着理解的深入而演变。我们将这一框架应用于基于数字MemComputing机器的3-SAT问题的算法发现，将基线随问题规模$N$的缩放从$\sim N^{2.51}$降低到$\sim N^{1.33}$，并在测试的最大实例上实现了约67倍的加速。作为一个问题无关的框架，我们希望这种方法将大大有助于科学发现。

查看原文

查看缓存全文

缓存时间: 2026/06/26 05:16

# 科学发现作为元优化：组合优化的案例研究 来源：https://arxiv.org/html/2606.26728 张远航 加州大学圣地亚哥分校物理系 La Jolla, CA 92093 [email protected] &Chesson Sipling 加州大学圣地亚哥分校物理系 La Jolla, CA 92093 [email protected] &Massimiliano Di Ventra 加州大学圣地亚哥分校物理系 La Jolla, CA 92093 [email protected] ###### 摘要 科学发现本质上是一个优化问题，由一个包含理论和实验的庞大“状态空间”以及基于质量、新颖性和有效性的评估标准所定义。大型语言模型（LLM）实现了对该空间的自动探索，但我们认为，同时修改评估标准同样重要。在此，我们提出将研究形式化为**元优化**，即优化目标本身也在被优化。我们的核心贡献是“**共识目标聚合**”，通过相关性加权投票将LLM生成的目标函数组合起来，形成一个稳定、自我校正的评估标准，该标准会随着理解的加深而演变。我们将此框架应用于基于数字MemComputing机器的3-SAT问题算法发现，将基线随问题规模\(N\)的缩放从\(\sim N^{2.51}\)降低到\(\sim N^{1.33}\)，并在测试的最大实例上实现了约\(\sim 67\times\)的加速。作为一个与问题无关的框架，我们希望这种方法能极大地助力科学发现。

## 1 引言

从本质上讲，科学研究是在一个包含理论、实验和实现的巨大空间中进行优化的过程[8 (https://arxiv.org/html/2606.26728#bib.bib2)]。每一个已发表的结果都对应着这个“研究空间”中的一个局部最优解，是通过人类进行的缓慢、有噪声的采样过程找到的。评估一个单独的想法可能需要数月时间，且错误常有发生。

最近，大型语言模型（LLM）已经开始以远超单个研究人员的规模自动化这一研究过程，涵盖了从生成假设、编写代码、设计实验到分析结果和撰写学术论文的整个循环[18 (https://arxiv.org/html/2606.26728#bib.bib21),37 (https://arxiv.org/html/2606.26728#bib.bib50),14 (https://arxiv.org/html/2606.26728#bib.bib16),5 (https://arxiv.org/html/2606.26728#bib.bib5),22 (https://arxiv.org/html/2606.26728#bib.bib27)]。早期成果令人瞩目。AI Scientist[18 (https://arxiv.org/html/2606.26728#bib.bib21)]及其后继者[37 (https://arxiv.org/html/2606.26728#bib.bib50)]能够生成涵盖机器学习子领域的完整研究论文。谷歌的AI co-scientist[14 (https://arxiv.org/html/2606.26728#bib.bib16)]通过锦标赛式循环生成和辩论生物医学假设。FunSearch[26 (https://arxiv.org/html/2606.26728#bib.bib34)]、AlphaEvolve[23 (https://arxiv.org/html/2606.26728#bib.bib30)]和SATLUTION[39 (https://arxiv.org/html/2606.26728#bib.bib52)]将LLM与进化搜索相结合，推动了算法发现的前沿。多智能体系统现已应用于材料发现[21 (https://arxiv.org/html/2606.26728#bib.bib26),33 (https://arxiv.org/html/2606.26728#bib.bib46)]、化学合成[5 (https://arxiv.org/html/2606.26728#bib.bib5)]和物理定律的复原[15 (https://arxiv.org/html/2606.26728#bib.bib18)]。包括蒙特卡洛树搜索（MCTS）在内的树搜索方法已与LLM相结合，用于启发式设计[42 (https://arxiv.org/html/2606.26728#bib.bib60),35 (https://arxiv.org/html/2606.26728#bib.bib45),34 (https://arxiv.org/html/2606.26728#bib.bib43)]和数学推理[40 (https://arxiv.org/html/2606.26728#bib.bib54),38 (https://arxiv.org/html/2606.26728#bib.bib51)]。关于这一快速扩展领域的综述，可参阅例如[36 (https://arxiv.org/html/2606.26728#bib.bib47),41 (https://arxiv.org/html/2606.26728#bib.bib58),20 (https://arxiv.org/html/2606.26728#bib.bib24),11 (https://arxiv.org/html/2606.26728#bib.bib11)]。

然而，所有这些努力背后隐藏着一个更基本的问题：这些系统究竟应该优化什么？指导自动化发现的目标，无论是手工设计的基准、代理分数，还是LLM生成的评估函数，对于衡量真正的研究进展来说都是不完美的。这正是古德哈特定律在行动，它在强化学习中广为人知：“当一个衡量标准成为目标时，它就不再是一个好的衡量标准”[13 (https://arxiv.org/html/2606.26728#bib.bib15)]。针对代理目标进行优化会引发奖励破解（reward hacking），即解决方案在指标上得分很高，但却未能实现根本目标[30 (https://arxiv.org/html/2606.26728#bib.bib39),31 (https://arxiv.org/html/2606.26728#bib.bib41)]。目标规范已被标记为AI驱动发现的一个核心难题[10 (https://arxiv.org/html/2606.26728#bib.bib10)]，最近关于目标演化[10 (https://arxiv.org/html/2606.26728#bib.bib10),19 (https://arxiv.org/html/2606.26728#bib.bib23)]的工作已开始解决这一问题——尽管通常只是按顺序将一个目标替换为下一个。

在真实的科学研究中，目标往往不明确或不断演变。一个项目可能始于诸如“开发一个高效的算法”或“发现一种有效药物”这样的目标，但随着理解的加深，成功的标准会发生变化。目标通常是多元化的——准确性、解释力、鲁棒性、成本、新颖性、社会影响——并且可能抗拒任何单一的稳定排序。可以定义一个元目标并优化目标函数本身，但这只是将相同的规范和博弈问题提升了一个层次。

因此，我们将目标视为不断演变的、不确定的和多维度的，处理的是目标组合而非单个指标。在本文中，我们提出**共识目标聚合**作为自动化科学发现中**元优化**的一种稳健机制。该框架不维护单个演变的目标，而是生成许多目标函数，每个函数编码了解决方案质量的不同方面，并通过相关性加权投票进行聚合。我们计算所有目标之间的成对Kendall’s \(\tau\) 秩相关[17 (https://arxiv.org/html/2606.26728#bib.bib61)]，根据每个目标与其余目标的中位数一致性（截断为非负）乘以一个指数年龄衰减因子来赋予权重，并通过加权Borda计数[12 (https://arxiv.org/html/2606.26728#bib.bib12)]生成一个共识排名。由于每个代理目标都是试图捕捉真实但未知的研究目标的不完美尝试，因此彼此一致的目标更有可能捕捉到真正的研究进展，而存在分歧的异常值则可能是有噪声或误导性的。因此，我们给予与许多其他目标一致的目标更高的权重。年龄衰减机制允许较新的目标根据更新的理解逐渐取代较旧的目标。有噪声或对抗性的目标会被自动抑制，使得共识排名具有自我校正能力。

这个共识机制位于一个闭环迭代的多智能体系统内部，其中目标演化由元智能体（meta-agent）引导并由目标智能体（objective agent）执行，而实际研究由规划智能体（planner agent）规划并由设计智能体（designer agent）实现。我们将此框架应用于使用数字MemComputing机器（DMMs）[9 (https://arxiv.org/html/2606.26728#bib.bib64),32 (https://arxiv.org/html/2606.26728#bib.bib65),3 (https://arxiv.org/html/2606.26728#bib.bib4),29 (https://arxiv.org/html/2606.26728#bib.bib38)]的随机植入3-SAT问题[2 (https://arxiv.org/html/2606.26728#bib.bib62)]的算法发现。在整个搜索过程中，系统在42个共同演变目标的指导下探索了414个求解器设计。找到的最佳求解器将基线缩放从\(\sim N^{2.51}\)降低到\(\sim N^{1.33}\)，并在最大的测试实例上实现了约\(\sim 67\times\)的加速。当然，这种基于LLM的元优化可以应用于各种问题。因此，我们希望它能极大地助力未来的科学发现。

## 2 结果

### 2.1 框架概述

<figure>
<figcaption>图1：框架概览。</figcaption>
</figure>

该系统由四个LLM智能体组成，形成一个迭代循环。从人类定义的高级研究目标开始，**元智能体**设定研究策略，指导目标生成并分析目标质量。**目标智能体**提出反映解决方案质量不同方面的代理目标函数；这些函数输入到一个**共识目标**中，该目标通过相关性加权投票聚合排名。**规划智能体**在共识目标的指导下使用蒙特卡洛图搜索（MCGS）来确定战略研究方向。**设计智能体**将这些方向转化为具体实现，并由一个**多保真度执行引擎**进行测试，该引擎将计算预算分配给最有前途的设计。**超参数优化**模块定期调整领先设计的参数。

我们的框架有四个LLM智能体，形成一个迭代循环（图1 (https://arxiv.org/html/2606.26728#S2.F1)）。从人类研究人员定义的高级目标开始，每次迭代都经过以下阶段：

**元智能体。** 元智能体接收人类定义的研究目标并指导整体研究策略。它定期通过Kendall’s \(\tau\)相关分析现有目标，为目标智能体提供战略指导，并分配可以放大有用目标或抑制有害目标的权重乘数。

**目标智能体。** 根据元智能体的评估，目标智能体生成新的代理目标函数，将实验结果映射为标量质量分数。每个目标旨在捕捉解决方案质量的不同方面。所有目标对所有设计进行评分，并通过Kendall’s \(\tau\)相关性加权投票和年龄衰减（第2.2 (https://arxiv.org/html/2606.26728#S2.SS2)节和第4.2 (https://arxiv.org/html/2606.26728#S4.SS2)节）聚合成一个单一的共识排名。

**规划智能体。** 规划智能体接收（由共识目标评分的）MCGS排序的设计列表以及完整的实验历史。它寻找成功和失败中的模式，并输出几个战略研究方向，为每个方向提供可供借鉴的参考文献。

**设计智能体。** 对于规划智能体提出的每个方向，设计智能体编写新的求解器代码，并通过一个多保真度实验调度[25 (https://arxiv.org/html/2606.26728#bib.bib33)]运行该代码。设计根据相对于当前种群的基于规则的判据进入更高级别的保真度，从而使计算预算集中在最强的候选方案上。使用异方差进化贝叶斯优化（HEBO）算法[6 (https://arxiv.org/html/2606.26728#bib.bib63)]定期对最佳未调优设计进行超参数调优。

这个迭代循环允许解决方案和评估标准同时演变。共识机制确保了研究目标的稳定性：即使某些LLM生成的目标可能具有误导性，共识排名仍然保持稳健和信息量。

### 2.2 共识目标聚合

<figure>
<figcaption>图2：共识目标聚合。</figcaption>
</figure>
(a) 42个LLM生成目标之间的Kendall’s \(\tau\)相关矩阵。大多数目标呈正相关（红色），但少数异常值与大多数目标呈负相关（蓝色），表明LLM生成的目标有时确实可能有误导性。
(b) 经过相关性加权投票和年龄衰减（\(\lambda=0.9\)）后的共识权重。由于年龄衰减，较新的目标权重较高，而一些较旧的目标由于与相关多数一致而仍然具有较大的权重。一致性低的异常目标被抑制。
(c) 基于成对\(\tau\)相关的目标PCA图，按目标ID（创建顺序）着色；较大的点表示较高的权重。早期的目标形成一个小的孤立簇，而后期的目标收敛于另一个更大的簇，反映了随着研究的进展，研究目标的变化。异常目标在视觉上分离，并在共识排名中被抑制。

没有单个代理目标能可靠地捕捉解决方案质量。例如，一个奖励小问题规模下低计算成本的目标，可能会无意中偏向于扩展性差的解决方案。每次LLM生成一个新的目标函数时，都可能引入微妙的偏见或忽略重要的边界情况。依赖任何一个这样的目标，即使是随时间演变的，也可能导致奖励破解。

相反，我们维护一个目标函数组合，并将它们聚合成一个共识排名。直觉很简单：每个LLM生成的目标都是同一个潜在隐藏研究目标的不完美代理。好的代理应该或多或少地一致，因为它们各自从不同方面近似于同一个目标；与大多数目标不一致的目标很可能通过微妙的偏见或盲点偏离了该目标太远。

聚合过程（图2 (https://arxiv.org/html/2606.26728#S2.F2)）如下：

1.  **评分矩阵。** 每个目标函数\(f_i\)对所有设计\(d_j\)进行评分，生成一个矩阵\(S_{ij}=f_i(d_j)\)。
2.  **排名转换。** 在每个目标内部，分数被转换为排名（分数越低，排名越好），使得不同目标之间的分数范围保持一致。
3.  **成对相关。** 我们计算所有设计上每对目标\(f_i\)和\(f_k\)之间的Kendall’s \(\tau\)秩相关[17 (https://arxiv.org/html/2606.26728#bib.bib61)]\(\tau_{ik}\)。完整的Kendall’s \(\tau\)矩阵绘制在图2 (https://arxiv.org/html/2606.26728#S2.F2)(a)中，显示了正相关目标的簇和一些异常值。
4.  **一致性加权。** 每个目标的权重与其与所有其他目标的中位数成对\(\tau\)（截断为零）乘以指数年龄衰减成正比：\(w_i=\max(\widetilde{\tau}_i,0) \cdot \lambda^{t-t_i}\)，其中\(\widetilde{\tau}_i=\text{median}_{k\neq i}(\tau_{ik})\)是中位数相关，\(\lambda=0.9\)是衰减基数，\(t\)是当前轮次，\(t_i\)是目标\(i\)被创建的轮次。然后权重被归一化，使其和为1。所有LLM生成目标的权重绘制在图2 (https://arxiv.org/html/2606.26728#S2.F2)(b)中。
5.  **共识排名。** 最终排名是通过加权Borda计数[12 (https://arxiv.org/html/2606.26728#bib.bib12)]得到的：\(C_j=\sum_i w_i \cdot R_{ij}/(n-1)\)，其中\(R_{ij}\)是设计\(d_j\)在目标\(f_i\)下的排名，\(n\)是设计的数量。

这个聚合过程是自我校正的。与大多数目标不一致的目标通过中位数\(\tau\)截断获得接近零的权重，年龄衰减则逐渐将影响力从较旧的目标转移到较新的、信息更充分的目标上。对所有目标标准化排名向量进行的主成分分析（PCA）（图2 (https://arxiv.org/html/2606.26728#S2.F2)(c)）证实了这一点：对设计进行相似排名的目标聚集在一起，而异常目标则孤立存在并接收较低的共识权重。较早期的目标形成一个初始的、较小的簇，随着理解的加深和系统对质量概念的演变，该簇逐渐转向另一个更大的簇。

科学发现作为元优化：一个组合优化案例研究

相似文章

LLM-AutoSciLab：通过主动实验实现闭环科学发现

SCICONVBENCH：在计算科学任务制定中基准测试LLMs的多轮澄清能力

什么让大模型成为优秀优化器？——LLM引导演化搜索的轨迹分析

面向科学发现的评测驱动扩展

用 LLM 优化 LLM：面向测试时扩展的智能体发现方法

提交意见反馈