@dair_ai: https://x.com/dair_ai/status/2061104052818108476

X AI KOLs Following 新闻

摘要

三篇值得关注的人工智能论文综述:SkillOpt 将技能文档视为可训练参数以优化冻结的智能体;一种新方法将智能体工作流编译成模型权重,实现100倍成本降低;而 AutoScientists 引入了一个去中心化智能体团队,无需中央规划者即可进行长期科学研究。

https://t.co/EU2rcF5M1f
查看原文
查看缓存全文

缓存时间: 2026/05/31 20:58

本周顶级AI论文

1. SkillOpt

微软研究院将一份紧凑的自然语言技能文档视为冻结智能体的可训练状态,然后通过推演、反思和由保留验证集把关的有限编辑来学习该文档。其论点直截了当:大多数工程师手写智能体技能文档并期望其泛化,而文档本身应像参数一样被优化。SkillOpt将SKILL.md文件重新定义为模型(其权重永不改变)的外部参数。

  • 作为可训练参数的技能文档: 一个优化器模型提出由验证集把关的技能文件编辑方案,添加、删除或替换指令。一个文本学习率控制每轮重写文档的激进程度,批量大小和动量在文本空间中报告,而非梯度空间。
  • 验证把关取代期望: 每次编辑必须通过保留检查才予保留。这使技能编写转变为具有真实目标的可测量优化循环,而非依靠直觉的提示调整。
  • 52战全胜: 在6个基准测试和7个目标模型上,SkillOpt击败了Trace2Skill、TextGrad、GEPA、EvoSkill、人工编写的技能以及一次性技能。与无技能基线相比,在GPT-5.5直接对话中提升约+23.5分,在Codex循环中提升+24.8分,在Claude Code中提升+19.1分。
  • 为何重要: 如果技能文档是待优化对象,瓶颈就从基础模型能力转移到如何在冻结智能体周围训练自然语言状态。这是一个廉价且与模型无关的杠杆,大多数团队尚未利用。

论文 | 推文

2. 将智能体工作流编译为权重

本文证明,完整的智能体工作流可以蒸馏到一个小型模型的权重中,并以大约两个数量级更低的推理成本运行,同时保持接近前沿的任务质量。无需在LLM之上保留外部编排器,而是将流程编译到微调模型的权重中,生成作者所称的地下智能体。

  • 整个工作流,而非仅答案: 编译过程包括多步LLM调用、工具调用、中间草稿和决策点。学生模型内化编排逻辑,而非仅模仿最终输出。
  • 编排器消融于模型: 经典智能体框架在每个请求上运行模型之上的规划循环。将该循环编译进权重消除了每次调用的编排开销,而这正是大部分成本和延迟的来源。
  • 接近前沿质量,成本降低100倍: 在评估任务中,蒸馏后的小型模型保持接近原始工作流的质量,同时将推理成本削减约两个数量级。节省源于将多次模型调用压缩为一次前向传播。
  • 为何重要: 大多数生产环境中的智能体每天数千次地重复支付编排循环的成本。如果该循环能一次性编译进廉价模型,部署智能体系统的经济学将发生显著变化,尤其适用于高吞吐量的狭窄工作流。

论文 | 推文

3. AutoScientists

哈佛大学的AutoScientists是一个用于长时间运行计算科学任务的去中心化AI智能体团队,完全摒弃中央规划器。智能体不遵循自上而下协调的单一研究轨迹,而是围绕有前景的假设进行自组织,在消耗实验算力前相互评审对方的提案,并记录成功与失败,使系统在数小时或数天内积累证据时避免重复探索。

  • 无中央规划器: 智能体解释共享的实验状态,围绕有希望的方向组队,并在进展停滞时重组。协调来自共同状态而非顶层控制器,从而维持并行搜索而非单一线程。
  • 先评估再投入: 在分配任何实验算力之前,提案被评审并打分。这种把关减少了浪费的试验,并防止系统重复个体智能体本会再次尝试的死胡同。
  • 在真实科学任务上的强劲结果: 在BioML-Bench(24项涵盖成像、蛋白质工程、单细胞组学和药物发现的生物医学ML任务)上,AutoScientists达到74.4%的平均排行榜百分位,比最强先前AI智能体提升了+8.33%。
  • 为何重要: 大多数多智能体研究系统仍通过规划器汇集决策,形成瓶颈。去中心化的自组织加上明确的失败分享,为长期科学搜索提供了不同蓝本,并在困难的生物医学基准上经住了考验。

论文 | 推文

4. 语言模型需要睡眠

注意力机制随上下文长度扩展性差,因此长时域智能体随着上下文增长不断支付日益高昂的成本。本文研究了一种类似睡眠的巩固机制:模型周期性地将近期上下文转换为持久化的快速权重,然后清除其键值缓存。在睡眠阶段,它对累积的上下文执行离线循环传递,并通过学习到的局部规则更新其状态空间块中的快速权重。

  • 巩固,然后清除缓存: 近期上下文在KV缓存被丢弃前,被折叠进存储在模型SSM块中的快速权重。智能体保留了所学内容,而无需将完整的注意力开销带入每个未来步骤。
  • 计算移至睡眠,延迟保持在清醒: 额外工作在离线巩固期间完成,因此清醒时的预测保持低延迟。这种权衡是显式且可控的,而非隐藏在不断膨胀的上下文窗口中。
  • 更多睡眠有助于最困难的情况: 增加睡眠时长可提升性能,最大的增益恰好出现在需要最复杂长历史推理的任务上。该机制在朴素注意力最挣扎的地方提供了最大帮助。
  • 为何重要: 长时域智能体是首批感受到注意力二次方成本上升的系统。受生物学启发的巩固步骤为无止境扩展上下文窗口提供了原则性替代方案,并且能干净地映射到已用于效率提升的状态空间架构上。

论文 | 推文

5. 适配接口,而非模型

当冻结的LLM智能体在确定性、规则驱动的环境中反复失败时,是否必须重新训练模型?Life-Harness的答案是:否。许多失败源于模型-环境接口的不匹配,而非模型推理本身,因此修复应属于运行时框架。Life-Harness是一个生命周期感知的框架,可改进冻结智能体,而不触及模型权重或评估环境。

  • 失败变为可重复使用的干预: 反复出现的错误被转化为跨四个领域的运行时修复:动作实现、环境契约、轨迹调控和程序性技能。每次修复都是框架级别的补丁,智能体在后续尝试中可重复使用。
  • 模型冻结,环境不变: 模型或基准测试没有任何改变。只有它们之间的接口在适配,从而使该方法可即插即用于任何主干,并避免了微调的成本和风险。
  • 广泛、一致的增益: 在7个确定性智能体基准测试和18个模型主干上,Life-Harness改进了126个模型-环境设置中的116个,平均相对改进率为88.5%。该效果跨模型规模成立,而不仅帮助弱小模型。
  • 为何重要: 这进一步支持了“代码即框架”论点:智能体失败中很大一部分是接口问题,可以通过框架工程修复而无需重新训练。对于构建者来说,杠杆在于运行时,而非模型。

论文 | 推文

6. 效率前沿

上下文成本主导着生产环境中的LLM账单,而正确的策略取决于预处理被重用的频率。本文将上下文策略选择建模为一个部署感知的优化问题,联合考虑任务性能、令牌成本和重用,然后用于在现实约束下比较基于检索和基于预处理的策略。

  • 重用感知的成本模型: 一个参数化的对数效用度量捕捉了更多上下文带来的边际效益递减,同时收取摊销的预处理成本。通过变化重用参数,该框架可在平等基础上比较不同部署模式下的策略。
  • 不同的运行区间: 分析揭示了检索策略与预处理策略之间清晰的过渡边界。哪种策略胜出取决于预处理上下文被重用的次数,因此单一的默认设置很少是最优的。
  • 真实的令牌节省: 在5000个HotpotQA实例上,部署感知优化在相当性能下将有效令牌使用量削减了约25%,而摊销内存压缩相比完整上下文实现了超过50%的令牌成本降低。
  • 为何重要: 大多数团队选择一次上下文策略,然后在每个请求上为其付费。将上下文管理视为显式的成本-性能优化,将猜测转变为可衡量的决策,常见工作负载上可实现两位数的节省。

论文 | 推文

7. 用AI预测科学进展

前沿模型能否预测科学的发展方向?本文引入了CUSP,一个基于4760个跨多个学科的真实科学事件构建的截止条件基准,每个事件都对应一个经过验证的知识截止点。对于每个事件,模型在四项任务上接受测试:可行性评估、机制推理、生成方案设计以及时间预测。标题让人清醒:模型能识别合理方向,但无法预测结果。

  • 识别并非预见: 模型能在竞争候选方案中识别出合理的研究方向,但无法可靠地预测一项进展是否真的会实现,并且系统性地错误估计其发生时间。
  • 领域依赖,时间预测最难: 性能在不同领域差异显著,AI进展的时间可预测性优于生物学、化学和物理学的进展。时间预测是所有任务中最弱的技能。
  • 并非仅是训练截止日期伪影: 性能对事件发生在模型训练截止日期之前还是之后基本不敏感。额外的截止前知识有所帮助,但未能缩小与全信息设置之间的差距,且该差距在高引用进展上更大。
  • 为何重要: 模型还显示出系统性的过度自信和强烈的响应偏差,这意味着其不确定性估计不可靠。随着实验室依赖AI来筛选研究赌注,CUSP提供了一种受控方式来衡量AI在何处有帮助(发现方向)以及在何处失败(预测结果)。

论文 | 推文

8. 你的智能体也在衰老

AgingBench是一个针对智能体生命周期工程的长周期可靠性基准,其基础观察是长寿智能体仍然像刚初始化的模型一样被评估。它将智能体退化组织为四种机制:压缩老化(写入时摘要丢失未来相关细节)、干扰老化(累积的相似记忆挤出了目标事实)、修订老化(改变或派生的状态未正确更新)以及维护老化(来自常规生命周期事件)。通过使用时序依赖DAG编码跨会话结构,它生成的是运营生命周期内的老化曲线,而非单日得分,并指出了修复应聚焦的方向。

论文 | 推文

9. 框架并非始终更好

本文通过推理时轨迹对齐的视角研究LLM智能体框架,将框架分解为两种机制:任务分解(将任务结构化为子目标)和引导执行(在执行过程中重塑局部动作分布)。关键发现是,更复杂的框架并非始终更好。增加分解或引导可以改善执行,但也可能降低最终任务成功率,产生具体的失败模式,如过度分解、过度剪枝和幻觉执行。引人注目的是,仅指定初始步骤而将剩余部分交给智能体的部分框架,能达到比完整结构化工作流更高的通过率。

论文 | 推文

10. Epicure

Epicure从头训练了一个多语言食材嵌入系列,使用了来自11个来源、七种语言的414万条食谱,原始食材字符串通过一个LLM增强的流水线被归一化为1790个规范条目。它提供了三种skip-gram(Metapath2Vec)变体,共享架构但遍历方式不同:仅食谱共现、仅来自FlavorDB的化合物结构、或两者混合,将每个模型置于化学-食谱上下文光谱的不同位置。结果是一个紧凑、可下载的食物涌现几何地图,清晰地提醒我们表示学习能够很好地泛化到文本之外,进入令人惊讶的日常领域。

论文 | 推文

相似文章

@dair_ai: https://x.com/dair_ai/status/2053495521243799717

X AI KOLs Following

DAIR AI 的每周精选汇总了多项重磅研究论文,包括通过内化并行推理提升模型性能的 HeavySkill,以及利用强化学习优化智能体编排的 Sakana AI Conductor。此外,还涵盖了 Meta FAIR 关于自我改进预训练的研究工作。

@dair_ai: https://x.com/dair_ai/status/2056018543850754283

X AI KOLs Following

一份关于5月11日至17日顶级人工智能论文的综述,涵盖了用于长上下文预训练的Lighthouse Attention、grep与嵌入检索在编码代理中的对比,以及揭示LLMs中几何计算器的机制可解释性工作。