@omarsar0: 这是本周最突出的AI论文之一。(收藏) 它探讨了一个大多数自我改进的AI智能体都……

X AI KOLs Following 论文

摘要

本文介绍了一个范畴论框架,用于区分自我改进的AI智能体中的真正科学发现与单纯的检索或搜索,利用范畴论来形式化状态转变。作者通过一个蛋白质力学示例展示了该框架:智能体在解决更难的问题时准确率下降,但其理论压缩了更多数据,表明真正的发现。

这是本周最突出的AI论文之一。 (收藏) 它探讨了一个大多数自我改进的AI智能体忽略的问题:智能体是否真的在发现新东西,还是仅仅在重新组合它已知的内容? 你怎么知道智能体是在进行真正的发现,还是只是自信地检索? 作者给出了三个清晰的分类: - 检索(Retrieval)是在你已经拥有的笔记本里查找信息。 - 搜索(Search)是用新方式组合你已经拥有的工具。 - 发现(Discovery)是发明一个之前不在你工具箱里的新概念。 问题是大多数智能体只停在前两个阶段。 他们定义背后的数学(如果你感兴趣的话,是范畴论加上左Kan扩展)基本上是一种记账技巧,用来问:旧版本的我能否产生这个结果?如果能,就不是发现。如果不能,那就出现了真正的新东西。 他们构建了一个Builder/Breaker代理,研究蛋白质力学。经过四轮,模型的拟合准确率实际上在下降(R²从0.48到0.68再到0.54最后到0.41)。乍一看,这像一个失败的智能体。 但实际上并非如此。 该智能体不断挑战更难的蛋白质,并重写其理论以覆盖它们。数据增长了近10倍,而模型代码只增长了1.3倍。用更少的代码覆盖更大的世界,这正是优秀科学的样子。 为什么这很重要? 如果只优化准确率,你的自我改进智能体就会停留在简单的基准测试上而停止进步。这篇论文提供了一个更清晰的成功信号,询问智能体是否随时间推移用更少的代码压缩了更多的世界信息。 论文:https://arxiv.org/abs/2606.01444 在我们的学院学习构建有效的AI代理:https://academy.dair.ai
查看原文
查看缓存全文

缓存时间: 2026/06/08 07:17

这是本周最引人注目的人工智能论文之一。(别忘了收藏)它探讨了一个大多数自我改进型AI智能体都忽略的问题:这个智能体到底是在真正发现新东西,还是在重新组合它已知的知识?你如何判断智能体是在进行真正的发现,还是在自信地进行检索?作者给出了三个清晰的类别:

  • 检索(Retrieval)是在你已有的笔记本里查找信息。
  • 搜索(Search)是以新的方式组合你已有的工具。
  • 发现(Discovery)是发明一个前所未有的新概念。

问题在于,大多数智能体止步于前两步。他们定义背后的数学工具(如果你在意的话,是范畴论加上左Kan扩展)本质上是一种记账技巧,用来追问:旧的我能产生这个结果吗?如果能,那就不是发现;如果不能,那就出现了真正的新东西。

他们构建了一个研究蛋白质力学的 Builder/Breaker 智能体。经过四轮迭代,模型的拟合准确率实际上在下降(R² 从 0.48 到 0.68 到 0.54 再到 0.41)。乍一看,这像一个失败的智能体。但并非如此。智能体不断接手更难处理的蛋白质,并重写自己的理论以覆盖它们。数据量增长了近 10 倍,而模型代码仅增长了 1.3 倍。用更小的理论覆盖更大的世界,这正是好的科学应有的样子。

为什么这很重要?如果你只优化准确率,你的自我改进型智能体就会安于简单的基准测试并停滞不前。这篇论文提供了一个更清晰的成功信号,并追问智能体是否在随着时间推移,用更少的代码压缩了更多的世界信息。

论文: https://arxiv.org/abs/2606.01444 在我们的学院学习构建有效的AI智能体: https://academy.dair.ai


面向科学的自修正发现系统:智能体人工智能的范畴论框架

来源: https://arxiv.org/html/2606.01444

Fiona Y. Wang 原子与分子力学实验室 生物工程系 麻省理工学院 剑桥, MA 02139, 美国

&Markus J. Buehler https://orcid.org/0000-0002-4173-9659 原子与分子力学实验室 土木与环境工程系 机械工程系 计算科学与工程中心 施瓦茨曼计算学院 麻省理工学院 剑桥, MA 02139, 美国 [email protected]

摘要

科学发现不仅仅是生成答案,更是对证据、制品、操作和验证器所属表征体系的修订。我们为材料科学中的智能体发现开发了一个基于范畴论的描述。在一个固定体系 b 中,给定模式范畴 S_b,系统状态是一个共预层 I_t: S_b → Set,溯源关系是范畴 ∫_{S_b} I_t 的元素。固定体系下的操作是对此类状态的更新,只有当指定并保留了保持溯源关系的细化时,才具有自函子性质。发现则是一个经过验证的体系转换 u: S_b → S_b':旧制品被保留,通过 Lan_u I_t 进行迁移,并与转换后的状态进行比较,以识别超出函子迁移范围的残余内容。这区分了检索、搜索和发现,且无需依赖主观的新颖性判断。我们在两个系统中实例化了该框架。在 Builder/Breaker 中,一个蛋白质力学世界模型在最小描述长度(MDL)门控下被修订;最终被接受的定律将链内柔性表达为全模态弹性柔度受慢集体模态参与度调节的关系,即模态条件化柔度。在 CategoryScienceClaw 中,类型化的技能、制品、开放需求、工作流变异、门控、压力测试和公开讨论构成了一个携带证明的知识-计算图。一个纤维网络的例子记录了候选模型、被拒绝的备选方案、一个 AIC 门控、扰动测试,以及一个被接受的各向异性取向张量刚度替代模型,该模型基于各向同性纤维计数描述符。两个案例共同展示了范畴论如何既作为发现过程的数学语言,又作为自修正AI发现系统的工程规范。

关键词: 智能体AI;科学发现;AI for Science;范畴论;体系转换;自函子;最小描述长度;多智能体系统;材料科学;力学

1 引言

人工智能现已嵌入科学过程的各个阶段。基础模型检索和总结文献、提出假设、编写和调试代码、运行和解释模拟、设计蛋白质和材料,以及绘制图表和撰写报告。基于这些模型构建的智能体系统调用外部工具、协调多个专门化子系统、管理长时间运行的工作流,并越来越多地承担部分实验决策责任——无论是在计算管线中还是在自主实验室里 [12 (https://arxiv.org/html/2606.01444#bib.bib78), 50 (https://arxiv.org/html/2606.01444#bib.bib9), 25 (https://arxiv.org/html/2606.01444#bib.bib8), 27 (https://arxiv.org/html/2606.01444#bib.bib12), 26 (https://arxiv.org/html/2606.01444#bib.bib11), 46 (https://arxiv.org/html/2606.01444#bib.bib35), 72 (https://arxiv.org/html/2606.01444#bib.bib36), 2 (https://arxiv.org/html/2606.01444#bib.bib37), 68 (https://arxiv.org/html/2606.01444#bib.bib13), 15 (https://arxiv.org/html/2606.01444#bib.bib17), 11 (https://arxiv.org/html/2606.01444#bib.bib5), 13 (https://arxiv.org/html/2606.01444#bib.bib7)]。趋势很明显:人工智能不再只是针对固定任务预测输出,而是成为科学工作组织方式的积极参与者。

现有语料库 → 类型化制品 → 检索 固定模式 S_b → 搜索 体系 b → 体系 b' → 发现

图1: 检索、搜索和发现在结构上是不同的操作。检索增加一个已经可表征的制品。搜索在固定模式内找到一条新路径或新对象。发现则改变制品和操作所属类型的体系。

然而,这些系统的核心问题仍未得到充分的形式化。现有的人工智能科学家在重组、优化和改造固定科学词汇方面异常熟练,但真正科学中最重要的操作往往改变了词汇本身:一个新的有效变量、一种新的可接受操作、一个新的验证器、一个新的工具、一种新的制品类型。什么时候一个智能体系统是在固定科学体系内进行搜索,什么时候它又在改变体系本身?答案不仅仅是哲学性的;它决定了验证器必须如何设计、溯源关系必须如何审计、进展应如何衡量,以及为什么扩展现有模型在本质上不同于构建能够建立新表征承诺的系统。

这个问题有着悠久而深邃的思想史。波普尔强调批判性检验和证伪;库恩强调范式和世界观的转变;拉卡托斯则通过研究纲领(其硬核和辅助假说在反常压力下演化)来描述科学进步 [53 (https://arxiv.org/html/2606.01444#bib.bib53), 41 (https://arxiv.org/html/2606.01444#bib.bib54), 42 (https://arxiv.org/html/2606.01444#bib.bib55)]。本文从这些早期工作中提取出一个操作性问题:一个人工发现系统如何记录、验证并复用证据迫使表征体系发生改变的时刻?一个具体实例能使这一区别变得切实。考虑一位研究蛋白质力学响应的研究者。他们从一个序列开始,预测或检索出结构,构建接触图,对角化弹性网络,将预测的波动与晶体学 B 因子比较,就哪些残基主导响应提出假设,选择另一个应能对该假设构成压力的蛋白质,然后修订模型。每个阶段的对象都是类型化的:序列、结构、接触图、模式振幅、特征、符号模型、分数、报告。操作也是类型化的:从结构构建接触图、对角化基尔霍夫矩阵、提取正则模式、拟合符号表达式、评估描述长度预算。工作的记录不是一连串答案,而是一个类型化的溯源图。表 1 总结了本文使用的实现术语到范畴论术语的对应词典。

表 1: 实现术语与本文使用的范畴论形式化之间的对应词典。

现在假设下一个蛋白质暴露出一个无法通过改变系数或增加阈值来修复的失败。一个局部弹性网络特征可能适用于紧凑型蛋白质,但在铰链/结构域蛋白质上失效,因为相关现象不再是局部的残基柔度,而是通过集体变形表达的柔度。研究者有两个选择。他们可以在当前词汇内搜索,调整已有术语;或者扩大学术语汇,引入一个新的有效类型、操作或验证器。前者是搜索。后者是此处使用的强意义上的发现:不仅是在既有空间中找到更好的点,而是改变可接受的科学制品空间。

范畴论在此之所以有用,是因为它为科学家已经使用的工程结构提供了命名。模式是制品类型和允许操作构成的范畴。当前证据体是该模式上的一个制品群。溯源图是该群的元素范畴化实现。一致更新是一个自然变换或函子性细化。发现动作是从一个模式到另一个更大或不同模式的迁移,保留有效内容的同时使新类型、态射、工具或验证器可用。范畴论基础是标准的;将范畴用于科学模式、ology 和数据迁移的应用已经发展得很成熟 [48 (https://arxiv.org/html/2606.01444#bib.bib44), 4 (https://arxiv.org/html/2606.01444#bib.bib45), 61 (https://arxiv.org/html/2606.01444#bib.bib22), 23 (https://arxiv.org/html/2606.01444#bib.bib21), 60 (https://arxiv.org/html/2606.01444#bib.bib43), 62 (https://arxiv.org/html/2606.01444#bib.bib70), 63 (https://arxiv.org/html/2606.01444#bib.bib71)]。语言是抽象的,但对象是实用的:PDB 链、模拟、方程、假设、制品、声明和报告。

本文还延续了我们在 olog、层次化材料、学习映射、神经 olog、语言中介推理和无规划器科学群体 [59 (https://arxiv.org/html/2606.01444#bib.bib1), 28 (https://arxiv.org/html/2606.01444#bib.bib2), 29 (https://arxiv.org/html/2606.01444#bib.bib3), 10 (https://arxiv.org/html/2606.01444#bib.bib4), 14 (https://arxiv.org/html/2606.01444#bib.bib16)] 方面早期工作中发展起来的材料科学线索。在每种情况下,科学问题不仅是计算一个输出,更是保留使输出跨尺度有意义的那个结构。目前的工作则将那条线索折返到发现本身。如果材料是一个可组合机制构成的层次结构,那么智能体发现系统就是一个可组合科学制品构成的层次结构。我们注意到,其背后的主张并非通常的还原论。在层次化材料中,复杂性很少只存在于一个特权的尺度。羟基磷灰石化学、胶原结构、矿物组织、裂纹尖端力学和组织重塑各自都是必要的,但单独任何一个都不充分。重要的是将简单组件组织成更高阶结构的组合语法,以及该结构在负载、损伤、生长或新证据下更新的响应性。这种观点在更早的科学关于形式与转化的描述中已有先例,包括歌德的形态学 [30 (https://arxiv.org/html/2606.01444#bib.bib48)]。范畴论之所以有用,是因为它描述了尺度间的态射,而不迫使解释仅停留在底层。同样的原则驱动着本文对发现的描述:一个科学 AI 系统不应仅在一个固定表征内优化制品,而应在不同表征层级间组合类型化制品,将这些组合置于世界的检验下,并在旧语法过于局限时修订它。

这条线索也逆转了人工智能与力学之间通常的影响方向。在许多当前设定中,AI 被引入力学作为外部优化器或替代预测器:它加速模拟、拟合本构律或搜索设计空间。本框架反而让力学帮助定义 AI 发现系统应该是什么样子。力学提供了一套严谨的语言来描述状态、载荷、响应、失稳、失效、允许运动、本构闭合以及多尺度传递。这些概念在此重现为制品状态、证据压力、压力测试、门控、体系转换、残余内容和保持溯源关系的迁移。在这个意义上,力学不仅是展示该框架的领域,更是该框架的来源之一。那些使力学模型具有意义(例如,跟踪边界条件、保持不变量、测试失效模式、跨尺度粗粒化、以及区分新的本构结构和对旧变量的重拟合 [16 (https://arxiv.org/html/2606.01444#bib.bib62), 44 (https://arxiv.org/html/2606.01444#bib.bib63), 21 (https://arxiv.org/html/2606.01444#bib.bib64), 9 (https://arxiv.org/html/2606.01444#bib.bib65), 37 (https://arxiv.org/html/2606.01444#bib.bib66), 3 (https://arxiv.org/html/2606.01444#bib.bib67), 57 (https://arxiv.org/html/2606.01444#bib.bib68), 66 (https://arxiv.org/html/2606.01444#bib.bib69)])的相同习惯,成为那些修订自身科学词汇的智能体 AI 系统的设计原则。

我们做出四项贡献。首先,我们给出了类型化制品状态的形式语义,将其作为共预层 I_t: S_b → Set,并将已实现的溯源关系作为元素范畴 ∫_{S_b} I_t。这也给出了科学知识图的一个范畴论推广:知识、计算、验证、拒绝、公开讨论和模式修订被表示为单个可执行、自修正的知识-计算图的一部分,而不是分离的数据层、工作流层和通信层。第二,我们将固定体系下的智能体更新(在明确假设下建模为自函子动态)与发现动作(建模为经过验证的体系转换,配备 Kan 扩展迁移和旧证据的显式保持映射)区分开来。Kan 扩展在孤立新类型上的空值给出了一个具体的阻却:单靠迁移无法填充它们。第三,我们使用 Builder/Breaker 蛋白质力学系统作为一个定量案例研究,其中符号世界模型在最小描述长度 (MDL) 门控 [15 (https://arxiv.org/html/2606.01444#bib.bib17)] 下被修订;被接受的定律将链内蛋白质柔度表达为全模态弹性柔度受慢集体模态参与度调节的关系,这是一种“模态条件化柔度”关系,以一种新允许的交互类型(而非附加项)出现。第四,我们使用 CategoryScienceClaw 作为 ScienceClaw 之上的一个范畴论层,其中技能注册表、im

相似文章