@dair_ai: https://x.com/dair_ai/status/2058537927823556668

X AI KOLs Timeline 新闻

摘要

本周(5月18-24日)顶级AI论文综述,涵盖关于代理的code-as-harness调查、OpenAI自主解决单位距离猜想,以及一种无需遗忘的持续学习记忆模型。

https://t.co/pPFs4KiYRx
查看原文
查看缓存全文

缓存时间: 2026/05/24 14:32

本周顶级AI论文

本周顶级AI论文(5月18日至5月24日)

1. 代码即智能体框架

一篇超过100页的综述,将智能体框架视为一流的研究对象,而非围绕LLM的粘合剂。作者认为,代码即框架是实现通用智能体最有前景的路径,未来的智能体系统应满足四个特性:可执行、可检查、有状态、受管控。该报告整合了框架层的方法、应用和开放问题。

  • 框架工程作为一门学科: 本文将框架设计定位为一种独立于模型训练的科学,拥有自己的原语、失效模式和评估标准。该分类体系为比较不同系统提供了此前智能体文献中缺失的词汇。
  • 生产级智能体的四特性测试: 可执行、可检查、有状态、受管控。每个特性对应一类运维问题。作者用它来审计当前开源智能体框架,并识别默认实现中的不足。
  • 代码作为统一基板: 在浏览、工具使用和多步推理中,将决策编译为代码的框架在评估基准上始终优于基于JSON调用的编排。论文将其归因于结果轨迹的确定性、可组合性和可检查性。
  • 为何重要: 如果代码即框架是正确的基板,那么下一轮智能体系统的进步将来自框架层面的创新,而非新的基础模型。这篇综述为构建者提供了结构化的参考。

论文 | 推文

2. OpenAI 推翻单位距离猜想

OpenAI 的一个内部推理模型为 Erdős 1946 年提出的单位距离猜想找到了反例,这是 AI 系统首次自主解决数学中一个著名的开放问题。近80年来,数学家们一直认为正方形网格在最大化单位距离对数的 n 点摆放中基本是最优的。新构造利用具有3-幂伽罗瓦群的无限非分歧完全实代数数域塔,超越了网格方案,产生了单位距离数超过 n^(1.014) 的 n 点集。由包括 Noga Alon、Tim Gowers 和 Melanie Matchett Wood 在内的九位外部数学家共同准备了一篇经过人工验证的配套论文。

  • 首次自主解决核心开放问题: 证明过程中没有受到数学内容上的人为指导。外部数学家随后验证、消化并重写了它以供发表。
  • 深刻的数论,而非搜索: 该构造使用了 Golod-Shafarevich 理论和伽罗瓦上同调,而非枚举或暴力搜索。模型选择并组合了代数数论中的工具,这些工具远非数学解题任务中常见的训练分布。
  • 领域专家验证: 九位外部数学家,包括该猜想此前最严厉的批评者,验证了该证明。配套论文呈现了 AI 生成反例的经过消化和人工验证的版本。
  • 为何重要: 一个模型自主解决了一个80年之久的开放问题,改变了关于前沿推理系统能为研究数学贡献什么的先验判断。这也引发了关于功劳归属、验证以及数学界将如何整合 AI 发现结果的实践问题。

论文 | 推文

3. 记忆即模型

MeMo 用一个独立训练的记忆模型增强任何冻结的 LLM,该模型代表基础模型存储、检索和整合事实。记忆更新与基础模型权重更新解耦,因此该系统支持持续学习而不会灾难性遗忘——这是 RAG 未能提供的特性,因为向量存储只不过是一个挂接了学习编码器的数据库。

  • 记忆作为学习子系统: MeMo 具有明确的读写和整合接口,而非依赖上下文窗口。其立场是智能体中的记忆应该是模块化的、可学习的且有门控的。
  • 解耦的更新计划: 新事实通过记忆模型的训练循环吸收,而不触及骨干网络权重。这使得无需重训或向量数据库变动即可实现每周知识更新。
  • 持续学习的鲁棒性: 在评估任务中,系统在吸收新知识的同时保留旧知识,解决了微调的已知失效模式和基于检索的记忆的已知局限性。
  • 为何重要: 大多数生产级智能体系统仍然只是给 LLM 挂接一个向量存储并称之为记忆。MeMo 提出记忆应该是一个具有明确接口的训练组件,这对长期运行的智能体平台架构设计具有启示意义。

论文 | 推文

4. AIRA

Meta 的 AIRA 是一个自主发现神经架构的智能体系统,在24小时计算预算下,在350M、1B和3B规模上产出了超越 Llama 3.2 的模型。搜索由两个专门智能体分工完成:AIRA-Compose 搜索宏观架构,AIRA-Design 实现底层机制。这种分工在此类非玩具搜索问题上优于单一的端到端智能体。

  • 双智能体分解: 规划者选择结构,实现者填充机制。这种模式广泛适用于神经架构搜索之外的任务,如流水线组装、查询规划、提示工程和工具使用程序。
  • 在预算内以三种规模超越 Llama 3.2: 在24小时计算预算内,发现的架构在350M、1B和3B参数规模上匹配或超过了 Llama 3.2。这足以与数月的人工消融研究竞争。
  • 搜索而非合成: 发现的模型并非 LLM 编写的代码补丁嵌入框架,而是由双智能体循环引导的结构化搜索发现的完整架构。
  • 为何重要: 如果智能体搜索能够端到端地产生有竞争力的架构,那么 NAS 以及机器学习研究流程的大部分工作就有可能被智能体系统自动化,而非依靠手工设计的搜索算法。

论文 | 推文

5. 弱模型评判-比较器

包装在评判-比较器编排循环中的 GPT-5.4 nano 在 SWE-bench Verified 上达到76.4%,与独立的 Gemini 3 Pro 和 Claude Opus 4.5 Thinking 持平。诀窍在于从弱模型中采样 k=8 个候选补丁,并使用执行和证明信号来选择胜出者,而非要求模型自我排序。

  • k=8 个候选加验证器超越前沿模型: 弱模型的 top-k 候选通常已经包含了一个正确的补丁。限制因素是选择器,而非基础模型的能力。
  • 执行和证明信号作为选择依据: 候选方案被运行和验证,而非由 LLM 评判进行评分。评判者和比较器在循环中承担各自不同的狭窄任务。
  • 以更低的每次调用成本匹配前沿性能: 从纳米级提案中选择比调用一次前沿模型更便宜,即使考虑到8倍采样,因为主导成本因素是模型规模而非调用次数。
  • 为何重要: 这是一个可复现的配方,用更便宜的模型获得前沿水平的编码智能体结果。该结果也重新定义了 SWE-bench 进展的来源:编排质量,而非仅仅更强的基础模型。

论文 | 推文

6. MetaCogAgent

MetaCogAgent 为多智能体系统配备元认知能力,使每个智能体决定是应该回答还是委派。当前多智能体系统的瓶颈在于过度委派和委派不足,而元认知门控是一种原则性的管理方式。每个智能体的元认知单元(MCU)产生置信度分数,驱动路由到委派枢纽。

  • 置信度驱动的路由: 每个智能体的 MCU 将言语化置信度和基于档案的置信度结合为一个分数。低置信度任务路由到委派枢纽,而非随意回答。
  • 自我感知专业化优于固定路由器: MetaCogAgent 在 MetaCog-Eval 上达到82.4%,而技能固定路由器为70.2%,单一智能体为65.3%。消融实验显示,自我评估和自适应委派各自贡献了实质性提升。
  • 涌现专业化: 不同的置信度画像(编码上高,检索上低等)纯粹从反馈中涌现。除初始系统提示外,没有编码任何专业化。
  • 为何重要: 多智能体系统通常依赖固定路由器或简单的轮询方案。一个学习到的、感知不确定性的委派门控提供了一种原语,能够在不重新训练路由层的情况下适应任务难度。

论文 | 推文

7. 生产级智能体架构方法论

一篇关于如何选择和组合生产级 LLM 智能体运行时架构模式的方法论论文。核心论点是大多数团队无意中让框架默认值替他们做了关键的架构决策。论文引入了随机-确定性边界(SDB)作为命名原语,并提出了一个六模式目录,按协调、状态和控制三个运行时关注点组织。

  • 随机-确定性边界: 一个由提议者、验证者、提交者和拒绝者组成的四部分契约,标记了 LLM 向确定性基础设施交接的位置。论文调查了五个广泛使用的开源智能体框架如何放置这个边界(通常是隐式的)。
  • 三乘六模式目录: 六种模式沿着三个正交关注点组织。协调模式回答如何拆分和合并工作。状态模式回答系统如何记忆。控制模式回答谁决定运行什么以及何时停止。
  • 模式作为有意识的选择: 每个模式都有输入类型、输出类型、截止时间、重试预算和部分结果策略的类型化契约规范。目录通过遵循这一过程增长,而非添加临时抽象。
  • 为何重要: 生产级智能体故障很少来自 LLM。它们来自默认做出的架构选择。该方法论使团队能够揭示这些选择并有意识地做出决策。

论文 | 推文

8. NanoGPT-Bench

一项关于编码智能体能否进行真正 AI 研发的新评估。Intology 在 NanoGPT-Bench 套件上运行 Codex、Claude Code 和 Autoresearch,报告称这些智能体仅恢复了人类在相同问题上进度的9.3%。编码智能体将大部分计算资源用于超参数调优,很少尝试算法研究。Claude Code 和 Autoresearch 更常推理算法变更,但仍倾向于回避实现它们。这一结果给当前一波“自我改进型智能体“的说法泼了冷水:产生真正的研究进展需要与当前编码智能体在默认框架下趋同的精力分布截然不同的分布。

论文 | 推文

9. General-Agent

Prime Intellect 的 General-Agent 是一个完全合成的强化学习环境,其任务语料库自我演化并随时间变得更难。该发布包含跨1040个领域的4504个工具使用任务和8159个独特工具。合成任务创建被构建为一个双人游戏:一个合成器提出新任务族,一个求解器运行 rollout 来测量通过率。通过率落在校准难度区间内的任务被接受进语料库,困难的任务层级为下一轮扩展提供种子。这一框架将历史上主要瓶颈的 RL 环境创建本身转化为一个自动化的智能体搜索问题。

论文 | 推文

10. 对比神经元归因

Nous Research 发布对比神经元归因(CNA),一种通过识别和消融 MLP 基中的稀疏电路来引导 LLM 行为的方法,无需训练稀疏自编码器、修改权重或降低通用能力基准。给定少量对比提示对(引发目标行为及其反面),CNA 分离出激活差异最大的前0.1%的 MLP 神经元。消融这一小电路可消除该行为,同时保持模型其余部分完好。该干预在高强度下保持鲁棒,而残差流方法如对比激活添加(CAA)在此时开始退化。已在包括 Llama-3.1-70B、Llama-3.2-3B、Qwen2.5-72B 和 Qwen2.5-14B 在内的8个指令微调模型上对拒绝电路进行了验证。

论文 | 推文

相似文章

@dair_ai: https://x.com/dair_ai/status/2053495521243799717

X AI KOLs Following

DAIR AI 的每周精选汇总了多项重磅研究论文,包括通过内化并行推理提升模型性能的 HeavySkill,以及利用强化学习优化智能体编排的 Sakana AI Conductor。此外,还涵盖了 Meta FAIR 关于自我改进预训练的研究工作。

@dair_ai: https://x.com/dair_ai/status/2056018543850754283

X AI KOLs Following

一份关于5月11日至17日顶级人工智能论文的综述,涵盖了用于长上下文预训练的Lighthouse Attention、grep与嵌入检索在编码代理中的对比,以及揭示LLMs中几何计算器的机制可解释性工作。