利用开放环境中AI代理的集体智慧实现新发现

arXiv cs.CL 论文

摘要

本文介绍了EinsteinArena,一个代理原生平台,通过自主AI代理之间的开放交互,实现去中心化的科学发现。该平台已经产生了12项新的最先进成果,包括改进了11维接吻数问题的最佳已知下界,从593提高到604,这表明集体AI驱动的研究可以源自代理之间分享见解并相互借鉴。

arXiv:2606.10402v1 公告类型:新论文 摘要:科学发现往往是一个集体过程:研究人员分享部分结果,检查失败的尝试,并在较长时间内相互借鉴思路。最近的AI系统已经表明,基于语言模型的代理可以在开放的科学问题上取得有意义的进展,但大多数现有系统是孤立运行的。在本文中,我们介绍了EinsteinArena,一个用于开放分布式研究和发现的代理原生平台。EinsteinArena为代理提供一组实时更新的开放问题,每个问题都有可靠的验证器、公开排行榜以及问题专属的讨论论坛,代理可以在其中提问和分享见解。我们重点关注那些已经引起广泛研究兴趣的数学任务,在这些任务中,进展可以被清晰衡量。截至2026年5月,EinsteinArena上的代理已经发现了12项新的最先进成果,优于以往任何人类或AI的解决方案。一个显著的例子是11维的接吻数问题,该平台将最佳已知下界从593提高到604。这一进步并非来自单个代理或孤立运行,而是通过一系列提交、公开讨论、验证器的改进以及代理之间后续的想法借鉴而实现。这些结果证明,去中心化的科学发现可以从开放环境中自主代理之间的开放交互中涌现,展示了一种集体AI驱动研究的新范式。
查看原文
查看缓存全文

缓存时间: 2026/06/10 06:11

# 利用野外AI智能体的集体智慧实现新发现  
来源:https://arxiv.org/html/2606.10402  

Federico Bianchi¹*, Yongchan Kwon¹*, Aneesh Pappu², James Zou¹²  
¹Together AI,²Stanford University  
*共同第一作者  
(2026年5月)  

###### 摘要  

科学发现往往是一个集体过程:研究者分享部分结果、检视失败尝试、并在长时间跨度内互相借鉴想法。近期AI系统已表明,基于语言模型的智能体能够在未解决的开放科学问题上取得有意义的进展,但现有大多数系统是孤立运行的。在本文中,我们提出EinsteinArena,一个面向开放分布式研究与发现的智能体原生平台。EinsteinArena为智能体提供一组实时更新的开放问题,每个问题都配备可靠的验证器、公开排行榜以及供智能体提问和分享见解的问题专用讨论区。我们重点关注那些已获得大量研究关注、且进展可被明确衡量的数学任务。截至2026年5月,EinsteinArena上的智能体已发现12个新的最先进结果,优于所有先前的人类或AI解决方案。一个显著的例子是维度11的接吻数问题,该平台将已知最佳下界从593提升至604。这一进步并非来自单个智能体或孤立运行,而是通过一系列提交、公开讨论、验证器改进以及后续智能体之间的想法借鉴而出现。这些结果提供了证据,表明去中心化的科学发现可以通过野外自主智能体之间的开放互动而涌现,展示了集体AI驱动研究的新范式。  

## 1 引言  

科学发现的历史是一部集体工作的历史。个人突破依赖于一个共享知识的基础:之前缩小搜索空间的失败尝试、指明正确方向的部分构造、以及让后来研究者避免已知死胡同的公共记录。这种社会基础设施——研讨会、预印本、开放存储库和科学论坛——正是使复杂问题变得可处理的原因。  

随着AI系统在科学发现中扮演更大角色,一个自然的问题是它们是否能从类似的基础设施中受益。当前的AI发现系统强大但孤立:每次运行独立探索一个问题,产生的结果很少被整合到其他智能体可直接复用的共享知识体系中。这反映了人类研究的早期时代:在预印本、开放数据集以及使科学得以积累的规范出现之前。问题不仅在于单个智能体能否改进已知最佳结果,更在于一群智能体在共享状态上运行、互相借鉴部分发现,是否能取得更快进展。  

这种模式在数学和理论计算机科学中尤为明显,朝向新边界或构造的进展通常是增量式且分布式的。一个候选解可能近乎正确但数值不稳定;一个证明草图可能需要不同的参数化;一个构造可能只有在多轮改进后才变得有效。近期关于AI用于科学发现的工作表明,基于语言模型的系统可以改进开放问题的已知解。诸如AlphaEvolve[17](https://arxiv.org/html/2606.10402#bib.bib1)、Virtual Lab[24](https://arxiv.org/html/2606.10402#bib.bib2)和TTT-Discover[35](https://arxiv.org/html/2606.10402#bib.bib3)等系统表明,使用现代模型的搜索已经能够产生非平凡的进展。然而,这些系统通常围绕孤立运行或严格控制的工作流组织,它们并未暴露使人类研究高效的社会结构:公共轨迹、共享的部分结果、以及一个求解者从另一个求解者停止处继续的能力。  

有趣的是,另一条平行的工作线已经开始将AI智能体视为集体系统而非孤立求解者。Moltbook,一个完全由AI智能体组成的Reddit风格平台,展示了即使没有共享任务,大规模智能体群体也会展现出与人类在线社区相似的社会动态。在这项工作中,我们探究当智能体在具有共享状态、公开排行榜和问题特定讨论的公共平台上运行时,它们是否能取得进展。我们还探究开放轨迹是否通过允许后续智能体继承有希望的方向而不是从头重启,从而扩展了搜索的有效时间跨度。  

我们提出EinsteinArena,一个旨在研究这些问题、专注于具有精确或近似精确验证的科学问题的平台。EinsteinArena使智能体能够访问共享的研究成果、基于先前解进行构建、并通过自动评估接收持续反馈。更根本的是,EinsteinArena没有将知识注入一个随运行结束而消失的任务特定框架中,而是将平台视为一个持久的共享记忆:先前的解、失败的尝试和部分见解成为任何智能体都可构建的基础,使进展得以跨智能体、跨时间积累。我们的初始重点是数学,这里问题陈述精确,优化目标清晰,验证通常可以确定性和高效地进行。值得注意的是,EinsteinArena上的智能体将维度11的接吻数下界从593提升至604——这是自Best 1980年构造[1](https://arxiv.org/html/2606.10402#bib.bib7)突破以来最大的改进之一。¹¹¹如[3](https://arxiv.org/html/2606.10402#bib.bib6)所述。  

我们的主要贡献有三个方面:  

1. 我们提出EinsteinArena,一个开放平台,允许多个智能体在科学问题上有机协作,具备公开问题规范、自动验证、实时排行榜和讨论线程。  
2. 我们记录到该平台已在12个开放数学问题上产生了新最先进结果。  
3. 我们提供了野外协作式智能体搜索的语言分析,展示公开轨迹、迭代提交和共享调试如何产生任何单个智能体独自无法找到的新最先进解。  

## 2 EinsteinArena  

### 2.1 概述与设计原则  

EinsteinArena是一个开放的、智能体原生的平台,AI智能体在其中竞争和协作解决未解决的研究问题。该平台围绕三个核心组件构建:(i) 经过精心策划的开放问题集合,附有公开验证器;(ii) 一个实时排行榜,跟踪每个问题的最佳已知解;(iii) 一个公开讨论板,智能体可以在此分享中间发现、记录失败方法、并互相借鉴发现。图1展示了EinsteinArena的网页界面。  

图1:EinsteinArena web界面。每个问题页面包括问题描述、带智能体分数的活跃排行榜以及一个讨论板,智能体可在此分享发现、提问并提出假设。当新提交被评估或新讨论线程发布时,所有三个组件都会实时更新。  

EinsteinArena的一个核心设计原则是透明度:所有参与所需的核心工件都可公开访问。问题描述、验证器源代码、排行榜分数、最佳提交解以及讨论线程都可以通过web界面或API被任何智能体访问。这样,该平台作为一个共享研究环境,当前前沿对所有参与者可见,使智能体能够检查、复用和扩展他人产出的最佳工作。与平台交互的说明也通过一个markdown文件skill.md²²²skill.md文件可通过https://einsteinarena.com/skill.md访问公开提供,该文件指定了API端点和提交过程。EinsteinArena平台的源代码以及我们实验中使用的分析代码可在https://github.com/vinid/einstein-arena获得。  

### 2.2 问题策划与当前前沿  

我们从AlphaEvolve[17](https://arxiv.org/html/2606.10402#bib.bib1)中策划了一个开放数学优化问题的集合。我们选取了具有明确目标和计算高效评估程序的问题,以实现快速反馈和迭代改进。我们还优先考虑了已建立起研究兴趣的问题,包括先前研究已报告强AI智能体结果的任务(例如三个自相关问题),以及已知有人类明显更好解、留有较大改进空间的任务(例如素数定理问题)³³³GitHub仓库https://github.com/google-deepmind/alphaevolve_repository_of_problems的README.md文件包含一个图,说明哪些问题相对于AI解有最佳已知结果。表1总结了截至2026年5月EinsteinArena上活跃的问题及其当前最佳分数。对于EinsteinArena参与者达到新最先进结果的问题,我们额外报告了先前已知最佳结果和在平台上获得的当前最佳结果。自EinsteinArena于2026年3月19日启动以来,智能体已为12个问题发现了新最先进结果,且大多数发现是通过协作努力产生的,智能体迭代地基于先前解和社区反馈进行构建。⁴⁴⁴我们注意到SimpleTES[34](https://arxiv.org/html/2606.10402#bib.bib23)为Erdős最小重叠问题发现了一个新最先进构造,分数为0.380868。该构造优于当前EinsteinArena结果,但这个分数是在我们已经获得优于TTT-Discover[35](https://arxiv.org/html/2606.10402#bib.bib3)的0.380871分数之后取得的。我们在第2节和第4节中展示这些协作发现的代表性案例研究。  

表1:截至2026年5月EinsteinArena上的问题。粗体条目表示EinsteinArena智能体实现了新最先进结果的改进分数。先前最佳分数来源于AlphaEvolve[17](https://arxiv.org/html/2606.10402#bib.bib1)、TTT-Discover[35](https://arxiv.org/html/2606.10402#bib.bib3)及其中参考文献。问题的详细描述见附录A。  

### 2.3 问题规范与验证器  

EinsteinArena上的每个问题由四个组件定义:该数学任务的自然语言描述;solutionSchema,定义有效提交必须具有的精确JSON结构;scoring字段,指示分数越低越好还是越高越好;以及verifier,这是一个可执行的Python代码,将提交的解映射为一个标量分数。验证器是核心工件。许多验证器遵循先前工作(如AlphaEvolve[17](https://arxiv.org/html/2606.10402#bib.bib1))中使用的参考实现,但我们添加了对无效提交的额外检查。验证器经过人工审计,并在智能体暴露数值或有效性边缘情况时进行更新。它们也是公开的:智能体可以下载并在本地运行,无需API调用。这意味着服务器端评估是可复现的,并且本地运行旨在与服务器端运行语义上相同。智能体无需猜测评分函数或盲目提交解;它们可以离线迭代,仅在拥有可信改进时才提交。这种透明度是此类开放问题才可能具备的主要特性。  

问题的验证器复杂度各不相同。一些验证器直接对提交应用闭式公式(例如计算Erdős问题的重叠积分或自相关问题的自卷积比)。其他需要更重的计算,例如检查数百个向量上的成对距离条件(例如接吻数)或抽取10⁷个样本(例如素数定理问题)。所有验证器共享相同的接口:它们接受一个Python dict并返回一个单一的float,代表感兴趣的优化变量。  

### 2.4 智能体注册、交互与评估流程  

要参与EinsteinArena,智能体必须先在平台上注册。注册过程中,服务器生成一个随机的32字节值,称为challenge,以及一个难度参数k。智能体必须找到一个值n,使得SHA256(challenge + n)以k个前导零位开始。这种工作量证明计算成本低廉,但使大规模注册尝试在计算上昂贵,从而阻止垃圾信息。成功完成注册过程后,智能体将获得一个Bearer令牌,可用于后续API请求(包括解提交和其他写操作)的认证。  

注册后,智能体可以列出问题、获取问题规范、提交解、下载验证器代码以及异步轮询结果。由于EinsteinArena不提供人工友好的提交或其他写操作界面,参与旨在通过智能体进行,而非直接的人类交互。此设计有助于确保排行榜结果反映真实的智能体能力。为进一步鼓励广泛参与和实验,EinsteinArena不要求披露或注册创建或操作这些智能体的人类。  

至于评估流程,所有提交都在隔离的执行环境(E2B沙箱)中检查,问题验证器针对提交数据执行。评估后,每个结果写回数据库,排行榜根据平台接受规则进行更新。对于需要高数值精度的问题——例如接吻数,有效配置与无效配置之间的差异可能小于机器精度——验证器使用Python的decimal.Decimal算术,以30-80位有效数字计算重叠损失,对于整数值提交使用精确算术。  

### 2.5 排行榜与接受规则  

排行榜每个问题每个智能体最多显示一个解,对应智能体的最佳提交。新提交仅当改进智能体当前最佳分数时才出现在排行榜上;被拒绝或分数较低的提交不会添加到排行榜,也不会存储在我们的数据库中。当智能体达到新的个人最佳时,排行榜会更新以反映改进后的分数。虽然只有表现最好的解公开显示,但所有个人最佳提交都保留在数据库中,以便重建智能体随时间的进展。  

要占据榜首位置,提交必须通过更严格的接受流程:它需要超过当前最佳分数一个问题特定的最小改进阈值δ。由于不同问题的排行榜分数范围差异很大,我们为每个问题仔细选择δ,目标有两个:(i) 保持阈值足够低以鼓励智能体的迭代改进,以及(ii) 保持足够高以防止仅因细微修改或评估器之间的浮点差异导致的排行榜变化。  

### 2.6 Dis

相似文章

跨尺度科学挑战的AI智能体基准测试

arXiv cs.AI

介绍SciAgentArena,一个约200个任务的基准测试,用于评估真实科学研究中的AI智能体。发现智能体在明确指定的数据分析工作流程中表现有效,但在产生新颖见解和开放式探索方面存在困难。

EvoScientist:面向端到端科学发现的多智能体进化AI科学家

Papers with Code Trending

EvoScientist 是一个用于端到端科学发现的自适应多智能体框架,通过持久化记忆模块持续改进,由三个专业智能体组成,分别负责创意生成、实验执行和知识提炼。它在科学创意生成方面超越了7个当前最先进的系统,并通过多智能体进化提升了代码执行成功率。