@dair_ai: https://x.com/dair_ai/status/2053495521243799717

X AI KOLs Following 新闻

摘要

DAIR AI 的每周精选汇总了多项重磅研究论文,包括通过内化并行推理提升模型性能的 HeavySkill,以及利用强化学习优化智能体编排的 Sakana AI Conductor。此外,还涵盖了 Meta FAIR 关于自我改进预训练的研究工作。

https://t.co/Y4CufC0XQ9
查看原文
查看缓存全文

缓存时间: 2026/05/10 16:27

本周顶级 AI 论文

本周顶级 AI 论文(5月4日 - 5月10日)

1. HeavySkill

这是今年发布的最简洁的关于智能体(agentic)编排系统设计的观点之一。该论文认为,真正驱动编排系统性能的并非编排代码,而是一项单一的内部技能:并行推理后的深思熟虑(deliberation)。一旦将这种模式内化到模型中,大部分外围的脚手架代码就变得可有可无了。HeavySkill 将这一理念系统化,作为一个可在任何编排系统下运行的两阶段流水线,并通过 RLVR(基于反馈的强化学习)将其作为可学习技能进行训练。其结果是,原本看似是编排系统的优势,最终表现为模型本身的性能提升。

  • 两阶段技能,而非编排胶水代码: 第一阶段在多个采样链路上运行并行推理。第二阶段执行深思熟虑步骤,比较、批评并综合这些链路以得出最终答案。无论使用何种编排系统,该流水线保持一致,因此能够跨任务迁移。

  • GPT-OSS-20B 在 LiveCodeBench 上从 69.7% 跃升至 85.5%: 在深度思考变体(HM@4)下,20B 模型在具有挑战性的编码基准测试中获得了 15.8 分的提升。同样的配方使 R1-Distill-Qwen-32B 在 IFEval 上的得分从 35.7% 提升至 69.3%,其指令遵循得分几乎翻倍。

  • 通过习得技能达到 Pass@N 级别的表现: 一旦通过 RLVR 内化 HeavySkill,多个模型达到了 Pass@N 级别的表现,这正是使并行-深思模式具有实际可移植性的属性。该技能在训练所在的编排系统之外依然有效。

  • 为何重要: 一旦你可以将编排优势训练进模型,编排系统的胜利就开始看起来像模型本身的胜利。如果并行推理加深思熟虑确实是核心内部技能,那么长远来看,将是那些出厂即内置该技能的模型,而不是围绕它们叠加编排胶水代码。

论文 | 推文

2. Conductor

Sakana AI 在 ICLR 2026 上的论文介绍了一个 7B 参数的 Conductor 模型,它通过编排其他 LLM 而非自行解决问题,在 GPQA-Diamond 和 LiveCodeBench 上达到了 SOTA(最先进水平)。Conductor 经过强化学习训练,同时执行两项任务:设计工作者智能体(开源或闭源)之间的通信拓扑,并为每个工作者提示工程化专注的指令,以利用其各自的优势。编排者成为一个可学习的策略,而不仅仅是包装器。

  • 拓扑设计加针对性提示: 单一的强化学习策略决定谁与谁对话,以及告知每个工作者什么内容。针对随机化的智能体池进行训练,Conductor 能在推理时适应任意混合的智能体组合,包括训练期间从未见过的智能体。

  • 递归拓扑的自然涌现: 当允许将自己选为工作者时,Conductor 会形成递归拓扑,通过在线迭代适应解锁了一种新的动态测试时缩放形式。协调本身成为独立的缩放轴,区别于模型大小或上下文长度。

  • 仅通过协调在 AIME25 和 GPQA-D 上提升 3%: 相对于最佳单个工作者的增益约为 3%,作者指出这与前沿模型版本之间的整代改进幅度一致。区别在于,这里的提升来自可学习的路由,而非更大的预训练运行。

  • 为何重要: 这是迄今为止最有力的论证之一,证明编排者本身应是一个模型。路由决策不再是简单的包装器,而成为可学习的策略,这对于由多个模型提供商组成的生产级智能体堆栈来说,是正确的抽象方式。

论文 | 推文

3. Self-Improving Pretraining

大多数 LLM 的安全性、事实性和推理修复都是在后训练阶段附加的。但到那时,模式已经定型。这篇来自 Meta FAIR 的论文将这些行为移入预训练阶段本身。团队使用一个强大的后训练模型作为重写器和评判者:它将预训练后缀重写为更高质量、更安全的续写,然后根据原始后缀和重写后的内容对模型生成结果进行评分,以在预训练期间驱动强化学习。策略从开始就学习序列生成,而非下一个词预测,并针对质量、安全性和事实性给予奖励。

  • 后训练模型作为重写器和评判者: 强模型在预训练期间重写后缀,然后对训练中的模型生成结果进行评判,对比重写版和原版。安全性、事实性和质量成为奖励信号,而非事后过滤器,这使得策略能够早期内部化目标。

  • 从一开始就进行序列生成: 策略在奖励下直接训练生成序列,而不是预测下一个 token。这将归纳偏置转向产生评判者奖励的那类续写,这在长文本生成中尤为重要,因为在此场景下 token 级别的损失信号辨别力不足。

  • 全面的实质性增益: 事实性相对提升 36.2%,安全性提升 18.5%,生成质量胜率较标准预训练最高提升 86.3%。安全性和事实性的数据足够大,表明这些属性在预训练期间安装比事后补救更容易。

  • 为何重要: 你已有的后训练模型可用于更好地预训练下一代模型。这是一种在预训练层的递归改进循环,而这里正是最大的行为承诺被锁定之处。

论文 | 推文

4. Connect Four AlphaZero from Scratch

这篇论文提出了一种评估编码智能体的新方式:给它们一个最小化的任务描述,提供有限的预算,并要求它们自主地端到端重建一个著名的 ML 突破案例。Connect Four 加上 AlphaZero 是第一个实例。它足够小,可以在笔记本电脑上运行,又足够难,需要真正的研究工程循环。Claude Opus 4.7 在消费级硬件上用了三个小时实现了完整流水线(MCTS、神经价值与策略网络、自我对弈、训练计划),然后作为先手以 7 胜 8 负击败了 Pascal Pons 求解器。其他测试的前沿编码智能体无一能突破 2 胜 8 负。

  • 从补丁到系统: 现有的编码智能体基准测试衡量单元测试修复和小补丁。该基准测试衡量智能体是否可以根据一段简短的规范构建非平凡的 ML 系统,这更接近生产研究工程的实际样子。

  • 预算紧张,真实的研究循环: 智能体必须在消费级硬件的固定计算预算内设计搜索算法、训练网络、安排自我对弈并调试循环。无法逃向预构建的库,这正是使该任务具有辨别力的原因。

  • 前沿编码者之间的清晰分界: Claude Opus 4.7 作为先手在对决 Pascal Pons 求解器时达到 7 胜 8 负。其他测试的前沿编码智能体无一能突破 2 胜 8 负。差距之大足以表明该基准测试检测到了一些关于端到端 ML 工程能力的真实差异。

  • 为何重要: 补丁式基准测试开始饱和。重建突破性成果的任务为该领域提供了更高的天花板以推动进步,并且它们更直接地映射到人们实际上想要部署的智能体工作负载。

论文 | 推文

5. Coordination as Architecture

多智能体 LLM 系统在生产环境中的失败率在 41% 到 87% 之间,其中大多数失败是协调缺陷,而非基础模型能力问题。大多数已发表的多智能体架构比较甚至无法告诉你增益是来自协调还是仅仅因为某个配置拥有更多上下文。该论文主张将协调视为可配置的建筑层,与智能体逻辑和信息访问分离,并通过信息控制实验支持这一立场。

  • 信息控制方法: 相同的 LLM,相同的工具,相同的提示模板,相同的每次调用输出上限。唯一变化的是协调结构。一旦信息访问保持恒定,协调的实际贡献首次变得可测量。

  • 协调作为独立层: 论文提出将协调结构(谁与谁对话、何时、以何种聚合规则)作为一等公民的建筑轴。这种分离使团队能够在不重新运行整个堆栈的情况下推理协调变化。

  • 领域的词汇表: 迄今为止,“多智能体优于单智能体”的比较受到上下文窗口不对称性的混淆。该论文提供了实际测试协调主张所需的方法论和词汇表,这是多智能体研究线长期缺乏的基础设施。

  • 为何重要: 如果 41% 到 87% 的失败是协调缺陷,那么修复协调是构建者能做的杠杆效应最高的事。该论文将这种直觉转化为可衡量的工程目标,而非基于感觉的辩论。

论文 | 推文

6. Horizon Generalization

微软研究院进行了一项控制研究,其中唯一变量是任务视界(horizon)长度。相同的决策规则,相同的推理结构,只是到达目标所需的序列长度不同。主要发现:仅凭视界就是训练瓶颈。随着目标距离增加,探索呈组合爆炸式增长,信用分配变得模糊。在短视界上学习良好的模型在长视界上会崩溃,即使底层推理完全相同。解决办法不是更多计算资源,而是视界缩减。

  • 视界作为一等变量: 通过保持决策规则和推理不变,仅改变序列长度,该论文将视界隔离为独特的训练瓶颈。这区分了“智能体无法推理”和“智能体无法拼接长序列”,而大多数先前工作混淆了这两者。

  • 宏观动作稳定训练: 使用将许多低层决策压缩为一个的宏观动作重新参数化动作空间,立即稳定了训练。智能体学习相同的任务,只是在更粗的时间粒度上,使信用分配保持可行。

  • 推理时泛化到更长视界: 在缩减视界上训练的模型在推理时能泛化到更长视界。论文称之为视界泛化,这是最有用的属性,因为它意味着你可以廉价训练并部署长视界能力。

  • 为何重要: 大多数团队将长视界失败视为模型容量问题。该论文表示这是视界问题。在训练期间缩减视界,立即获得稳定性,并在推理时免费获得泛化能力,无需重新训练更大的骨干网络。

论文 | 推文

7. 1,000 Synthetic Computers

微软研究院构建了 1,000 台合成计算机,每台都具有现实的目录结构、文档和工件,然后在它们之上运行长视界模拟。一个智能体扮演用户并设定生产力目标;另一个执行工作。每个模拟平均运行 8 小时的智能体运行时间和 2,000+ 轮交互,相当于将一个月的人类工作压缩到一个轨迹中。在此体验数据上的训练在领域内和领域外的生产力评估中均带来了显著改进。

  • 现实的合成环境: 1,000 台计算机每台都配备目录结构、文档和工件,近似真实用户的工作环境。这种真实性使得轨迹作为训练数据有用,而非仅作为评估的好奇品。

  • 双智能体模拟循环: 用户智能体设定生产力目标,而工作者智能体针对这些目标执行。这种结构产生多轮、目标导向的轨迹,看起来像真实的生产力工作,而非现有基准测试中占主导地位的简短脚本任务。

  • 旨在扩展至数十亿世界: 该框架明确设计为可扩展至数百万或数十亿合成用户世界,这与前沿计算机使用智能体将需要体验数据的规模相匹配。长视界训练的瓶颈是数据,而这是生产数据的一个可信配方。

  • 为何重要: 计算机使用智能体的瓶颈已不再是模型能力,而是现实的长视界训练数据。合成环境扩展是少数不依赖于收集大量真实用户遥测数据的路径之一,这使其成为构建计算机使用堆栈团队的实用默认选择。

论文 | 推文

8. Contextual Agentic Memory is a Memo

当今大多数智能体记忆并非记忆,更接近备忘录。向量存储、RAG 缓冲区和草稿本实现的是查找,而非巩固。论文借鉴神经科学的互补学习系统理论:生物智能将快速的海马体存储与缓慢的新皮层巩固配对,而当前 AI 智能体只实现了前半部分(快速写入、相似性召回、无抽象步骤)。作者证明了在组合新颖任务上的泛化天花板:只要记忆保持仅检索,智能体就无法将抽象规则应用于看起来不像存储中任何内容的输入,并且始终面临记忆中毒的风险。如果你在构建长期运行的智能体并将记忆视为向量索引,这篇论文是对你所缺失内容的清晰诊断。

论文 | 推文

9. Agentic-imodels

整个可解释性文献是围绕人类读者构建的。随着更多分析委托给智能体,可解释性的正确目标发生转移。微软研究院引入了 Agentic-imodels,这是一种自动研究循环,其中编码智能体(Claude Code, Codex)迭代演化出兼容 scikit-learn 的回归器,这些回归器同时准确且可由其他 LLM 阅读。可解释性通过小型 LLM 仅通过阅读其字符串表示、预测、特征效应和反事实(来自 str 输出)来模拟拟合模型的行为来衡量。在 65 个表格数据集上,发现的模型将帕累托前沿推过所有经典可解释基线(决策树、GAM、稀疏线性),并在 BLADE 基准测试上将四个下游智能体数据科学系统的性能提高了 8% 到 73%。

论文 | 推文

10. Skills as Verifiable Artifacts

如果你发布智能体技能,你的运行时默认将签名并清白的技能视为受信任的。该论文主张,技能在被验证之前是未受信任的代码,运行时应强制执行此默认值,而非从来源推断信任。没有技能验证,人工介入(HITL)必须在每个不可逆调用时触发,这在非平凡规模下会退化为橡皮图章。将验证作为单独的闸门过程,HITL 仅对未验证的事项触发。技能现在是一等部署工件,而我们有数十年的供应链教训关于当信任从签名推断时会发生什么。在智能体技能库成为下一个攻击面之前,这是对 SKILL.md 的正确要求。

论文 | 推文

相似文章

@dair_ai: https://x.com/dair_ai/status/2068724104815890889

X AI KOLs Following

重点介绍近期三篇AI论文:SpatialClaw(通过代码实现无需训练的空间推理),SkillWeaver(组合式技能路由,采用分解-检索-组合流水线),以及PreAct(将智能体运行编译为快速状态机,用于重复任务)。

@dair_ai: https://x.com/dair_ai/status/2061104052818108476

X AI KOLs Following

三篇值得关注的人工智能论文综述:SkillOpt 将技能文档视为可训练参数以优化冻结的智能体;一种新方法将智能体工作流编译成模型权重,实现100倍成本降低;而 AutoScientists 引入了一个去中心化智能体团队,无需中央规划者即可进行长期科学研究。

@dair_ai: https://x.com/dair_ai/status/2056018543850754283

X AI KOLs Following

一份关于5月11日至17日顶级人工智能论文的综述,涵盖了用于长上下文预训练的Lighthouse Attention、grep与嵌入检索在编码代理中的对比,以及揭示LLMs中几何计算器的机制可解释性工作。