为何重复解决?面向迁移高效机器学习工程的技能分层积累
摘要
HASTE 提出了一种面向机器学习工程的分层多智能体系统,将跨竞赛知识组织为三个层级,在 MLE-Bench Lite 上实现了 77.3% 的获奖率,同时将计算量减少 52%,并证明了结构化知识迁移优于扁平记忆方法。
arXiv:2606.30911v1 公告类型:新
摘要:机器学习工程智能体在重新发现已知技术时浪费计算资源,因为每次竞赛都是冷启动。我们提出 HASTE,一个分层多智能体系统,将跨竞赛知识组织为三个作用域层级(全局、领域和竞赛特定),每个层级对应一个匹配的智能体级别。一个协调者负责协调领域专家,并通过 LLM 驱动的抽象促进层级之间的学习。一项受控消融实验为作用域加载提供了证据:在 8 场竞赛中保持 159 项技能库存不变,分层加载实现了 100% 的获奖率,而扁平加载仅达到 62.5%,与不加载技能时的获奖率相同,并且消耗了 2 倍的输出 token。在完整的 MLE-Bench Lite 基准测试(22 个 Kaggle 竞赛)中,HASTE 使用 Claude Sonnet 4.6 在每个竞赛 12 小时的条件下达到了 77.3% 的获奖率。在冷启动运行中,系统开始时没有积累的技能。在热启动运行中,它重新加载从早期竞赛中学到的技能,仅使用全局和领域级别的技能进行跨竞赛迁移。热启动使用的精炼迭代次数减少了 52%,并且智能体保留的提议变更比例从低库存时的 42% 上升到拥有 50 多个技能时的 85%。这些结果表明,更好的知识组织可以在机器学习工程智能体中部分替代模型强度和计算预算。
查看缓存全文
缓存时间: 2026/07/01 05:36
# 为何重复求解?分层技能积累实现高效迁移的机器学习工程 来源:https://arxiv.org/html/2606.30911 ###### 摘要 机器学习工程代理因每场比赛都是冷启动而浪费算力重新发现已知技术。我们提出HASTE,一种分层多代理系统,将跨比赛知识组织为三个作用域层级(全局、领域和比赛特定),每个层级与匹配的代理层级耦合。编排器协调领域专家,并通过LLM驱动的抽象促进层级间的学习。一项受控消融实验为范围化加载提供了证据:在8场比赛中保持159项技能库存不变,分层加载达到100%的奖牌率,而扁平加载仅达到62.5%,与不加载技能的奖牌率相同,且输出token消耗为2倍。在完整的MLE-Bench Lite基准测试(22个Kaggle比赛)上,HASTE使用Claude Sonnet 4.6在每场12小时的预算下达到77.3%的奖牌率。在冷启动运行中,系统从无积累技能开始。在热启动运行中,系统重新加载从早期比赛中学到的技能,仅使用全局和领域级技能进行跨比赛迁移。热启动使用的精炼迭代次数减少52%,代理保留的提议更改比例从低库存时的42%上升到可用技能超过50项时的85%。这些结果表明,更好的知识组织可以在机器学习工程代理中部分替代模型强度和计算预算。 机器学习工程,代理,知识迁移,分层记忆,MLE-Bench ## 1 引言 为何两次解决相同的问题?当前的机器学习工程代理正是如此。MLE-Bench在75个Kaggle比赛上独立评估代理(Chan等人,2025 (https://arxiv.org/html/2606.30911#bib.bib1)),而代理也独立处理它们,在任务之间重置所有状态。在一个比赛中证明有效的技术,必须在下一个相似比赛中从头开始重新发现。这种冗余是将每场比赛视为冷启动的代价:许多顶级代理依赖前沿模型、更长的预算或两者兼而有之来弥补重复的探索。 最近的工作探索了跨任务迁移(Grosnit等人,2024 (https://arxiv.org/html/2606.30911#bib.bib22);Zhang等人,2024 (https://arxiv.org/html/2606.30911#bib.bib23);Zhao等人,2024 (https://arxiv.org/html/2606.30911#bib.bib20);Wang等人,2024 (https://arxiv.org/html/2606.30911#bib.bib19);Hu等人,2024 (https://arxiv.org/html/2606.30911#bib.bib26)),但知识以扁平池或按记忆类型存储。具有扁平记忆的代理仍然缺乏为正确任务加载正确知识所需的*组织*:所有内容都放入一个上下文窗口,稀释了信号。只有当代理能够为当前任务选择正确的先验时,迁移才有帮助。因此,积累知识的组织决定了代理是将其有限预算用于有用的探索,还是用于重新推导已知事实。我们直接证明这种区别是重要的。在我们的受控消融实验中,扁平加载的表现与不加载技能相当,而分层范围化加载在每个任务上都获得奖牌。 HASTE(分层技能积累实现高效迁移的机器学习工程)将积累的技能组织成三个作用域层级:适用于所有机器学习任务的全局技能,适用于表格、视觉、NLP或音频任务的领域技能,以及仍然与一个数据集绑定的比赛技能。编排器协调表格、视觉和NLP领域的专家,每个专家只加载与其范围相关的技能。在比赛之间,编排器通过LLM驱动的抽象向上推动学习。这种范围化加载意味着每个代理只看到相关的内容,保持提示的聚焦和迭代的高效。加载的技能作为一个结构化的先验,指导下一次代码更改。该先验使每任务搜索范围足够窄,使得线性精炼循环能够工作:在两次失败的改进之后,循环从广泛探索转向优化或微调,任何损害验证分数的更改都会在下一步之前回滚。 在多阶段的MLE-Bench Lite活动中,HASTE使用非前沿模型和12小时预算达到公开性能的最高水平。技能积累提高了奖牌率,减少了所需的精炼迭代次数,并提高了值得保留的提议更改的比例。固定库存消融实验表明,积累需要范围化组织:分层加载优于扁平加载和空加载,而扁平加载在更高的token成本下与空加载相当。 #### 贡献。 本文贡献了一个3层级技能存储,通过LLM驱动的提升在全局、领域和比赛层级之间进行,并与编排器及匹配的领域专家耦合。它通过固定库存消融实验直接评估了范围化加载,表明层级结构的重要性超越了技能数量:相同的159项技能在按范围加载时有帮助,但当一次性倒入一个扁平提示时则无济于事。据我们所知,HASTE是第一个通过跨比赛作用域组织可复用技能,并在固定库存下评估范围化加载与扁平加载及空加载相比的MLE-Bench代理。实证研究表明,这种组织提高了MLE-Bench Lite上的效率,使得在12小时预算下的非前沿模型能够达到与更强模型系统相同的公开性能水平:无积累技能的冷运行达到40.9%的奖牌率,而重新加载全局和领域技能将同一系统提升至77.3%,将此前失败的13个比赛中的8个转为奖牌。该研究描述了一个包含159条纯文本技能库存,跨3个层级和4个领域。 ## 2 相关工作 #### MLE-Bench代理与搜索策略。 第一类MLE-Bench代理推进了*搜索*维度。AIDE(Jiang等人,2025 (https://arxiv.org/html/2606.30911#bib.bib2))运行贪心树搜索;MLE-STAR(Nam等人,2025 (https://arxiv.org/html/2606.30911#bib.bib3))使用网页检索的先验进行消融引导的目标精炼;AIRA-Dojo(Toledo等人,2025 (https://arxiv.org/html/2606.30911#bib.bib4))将MLE代理形式化为搜索策略×算子集;R&D-Agent(Yang等人,2025 (https://arxiv.org/html/2606.30911#bib.bib5))将研究者与开发者分离。基于种群的进化搜索出现在LoongFlow(Wan等人,2025 (https://arxiv.org/html/2606.30911#bib.bib7))和FM Agent(Li等人,2025 (https://arxiv.org/html/2606.30911#bib.bib9))中,而预算感知或图增强的蒙特卡洛搜索出现在MARS(Chen等人,2026 (https://arxiv.org/html/2606.30911#bib.bib6))和ML-Master(Liu等人,2025 (https://arxiv.org/html/2606.30911#bib.bib8))中。HASTE贡献于*知识*维度,该维度与搜索策略正交,可以与任何这些框架结合。 #### LLM代理中的跨任务知识迁移。 一些系统积累跨任务的经验,但以扁平池存储。Voyager(Wang等人,2024 (https://arxiv.org/html/2606.30911#bib.bib19))在Minecraft中维护一个由嵌入相似性索引的代码技能库;ExpeL(Zhao等人,2024 (https://arxiv.org/html/2606.30911#bib.bib20))通过扁平向量存储上的ADD/EDIT/UPVOTE/DOWNVOTE提取自然语言见解;Reflexion(Shinn等人,2023 (https://arxiv.org/html/2606.30911#bib.bib21))开创了单一任务内的口头自我反思;ICAL(Sarch等人,2024 (https://arxiv.org/html/2606.30911#bib.bib27))将反思扩展到视觉语言代理,并采用四组件知识结构。专门针对数据科学,Agent K(Grosnit等人,2024 (https://arxiv.org/html/2606.30911#bib.bib22))维护一个持久的内在状态,在经验学习形式主义中总结跨比赛的历史片段;MLCopilot(Zhang等人,2024 (https://arxiv.org/html/2606.30911#bib.bib23))通过文本嵌入和蒸馏知识检索相关基准;DS-Agent(Guo等人,2024 (https://arxiv.org/html/2606.30911#bib.bib24))结合嵌入排名的人类洞察案例与迭代案例推理;MLZero(Fang等人,2025 (https://arxiv.org/html/2606.30911#bib.bib25))将语义库知识与情节执行轨迹分离;ADAS(Hu等人,2024 (https://arxiv.org/html/2606.30911#bib.bib26))通过元代理搜索在编码设计存档上进化代理。SkillRL(Xia等人,2026 (https://arxiv.org/html/2606.30911#bib.bib28))报告当蒸馏技能被原始轨迹替代时性能下降25%,这推动了积极的压缩。 表1:机器学习工程代理中的跨任务知识机制。✓ = 存在,✗ = 不存在,∼ = 部分。表1 (https://arxiv.org/html/2606.30911#S2.T1) 比较了这些系统在组织方式、跨任务作用域、层级结构、提升机制和MLE-Bench评估方面的特点;HASTE是唯一一个按*适用范围*组织可复用知识的系统。 #### 代理系统中的分层组织。 分层结构在机器学习工程之外也有充分动机。选项框架(Sutton等人,1999 (https://arxiv.org/html/2606.30911#bib.bib29))引入了强化学习中的时间扩展动作,建立在封建强化学习(Dayan和Hinton,1993 (https://arxiv.org/html/2606.30911#bib.bib31))之上,其中管理者为工作者设定子目标;封建网络(Vezhnevets等人,2017 (https://arxiv.org/html/2606.30911#bib.bib30))通过不同时间分辨率形式化了这一想法。对于LLM代理,GITM(Zhu等人,2023 (https://arxiv.org/html/2606.30911#bib.bib34))为Minecraft使用了一个明确的三层分解。这是一个最接近的已发表的三层组织先例,但其层是任务内层级而非跨任务作用域层级。CoALA(Sumers等人,2024 (https://arxiv.org/html/2606.30911#bib.bib32))按类型分类代理记忆,Talebirad等人(2026 (https://arxiv.org/html/2606.30911#bib.bib33))形式化了有限容量代理如何受益于多级知识组织。HASTE将这一原则带入机器学习工程并提供了实证验证。其三层级技能存储与编排器-专家层级结构反映了封建架构,其中不同层级的管理者决定下属执行者应看到哪些知识,而存储的知识本身按*适用范围*组织。 #### 自动化流水线搜索与元学习。 早期的AutoML系统通过在预定义的模型和超参数空间内搜索,降低了为每个新数据集构建流水线的成本。预定义空间的系统如AutoGluon(Erickson等人,2020 (https://arxiv.org/html/2606.30911#bib.bib14))、TPOT(Olson和Moore,2016 (https://arxiv.org/html/2606.30911#bib.bib15))、Auto-WEKA(Thornton等人,2013 (https://arxiv.org/html/2606.30911#bib.bib16))和Auto-Sklearn(Feurer等人,2015 (https://arxiv.org/html/2606.30911#bib.bib17)、2022 (https://arxiv.org/html/2606.30911#bib.bib18))搜索手工设计的配置网格。元学习扩展(例如,Auto-Sklearn热启动)将跨数据集经验积累为数值元特征,并在新任务上预测配置向量。这些系统在其预定义空间内是有效的,但无法纳入定性见解(“由于Z的原因,分词选择X在数据集Y上失效”)。AgentHPO(Liu等人,2024 (https://arxiv.org/html/2606.30911#bib.bib10))调整超参数;CAAFE(Hollmann等人,2023 (https://arxiv.org/html/2606.30911#bib.bib11))生成特征工程代码;EvoPrompting(Chen等人,2023 (https://arxiv.org/html/2606.30911#bib.bib13))搜索架构;AutoML-GPT(Zhang等人,2023 (https://arxiv.org/html/2606.30911#bib.bib12))根据模型和数据卡编排训练。在这一组中,积累的先验仍是扁平或隐式的;HASTE将其拆分为适用范围层级。HASTE保持降低每任务搜索成本的相同目标,但搜索发生在不受限的Python代码中,而非固定的配置网格。它通过重用从先前运行中提取的纯文本经验,并且只加载其适用范围与当前任务匹配的经验,使这个更大的空间变得可处理。 ## 3 方法 编排器——分类、调度、提升 专家(每个领域一个:表格/NLP/视觉) 任务分析器 → 原型 → 筛选 → 自适应精炼 → 集成 → 生成学习 元数据,交叉验证策略 3个不同模型 探索 → 优化 → 微调 排名平均前3 3层技能层级 全局(5条)——所有专家加载 领域——表格(19)|| NLP(12)|| 视觉(15)——仅匹配的专家加载 比赛(21个目录)——每任务分配 比赛加载相关技能 保存学习 轮次间提升 图1:HASTE架构。编排器将比赛分配到领域专家。每位专家加载相关技能,执行流水线(分析→原型→精炼→集成),并生成学习。在轮次之间,编排器通过LLM驱动的抽象将可泛化的学习向上提升到层级中。图1 (https://arxiv.org/html/2606.30911#S3.F1) 显示了在多次比赛运行中共同演化的两个层级。*技能层级*具有全局、领域和比赛层级。*代理层级*有一个编排器和三个领域专家(用于表格、NLP和视觉任务)。范围化上下文加载将它们连接起来:每个代理仅接收与其范围匹配的技能层级。搜索空间仍然是无限定的Python代码;我们仅使用积累的结构化先验来限制该空间上的*分布*。 ### 3.1 技能层级 技能存储是一个纯文本的文件系统,包含带YAML前置元数据的Markdown文件,按*适用范围*组织成三个层级。*全局层*有5条,每个专家都加载。*领域层*包含12条NLP、19条表格和15条视觉条目,仅由匹配的专家加载。*比赛层*在21个目录中有108条,仅在该比赛重新运行时加载。 在每个层级内,HASTE区分三种类型的条目,它们被写入不同阶段的不同提示槽位。*技术条目*记录有效或无效的尝试,并用于生成提议提示,例如“目标编码有助于树模型中的高基数类别特征”。*承诺先验*记录哪些设计选择具有高跨任务方差,并用于原型筛选阶段,告知代理哪些选择在承诺之前需要证据。*精炼提示*记录每个模型系列应调整哪些旋钮,并用于优化和微调阶段。其他系统将这些都合并到一个“经验”包中;我们将它们分开,因为它们回答不同的问题,并在循环的不同时间点进入。 加载故意保持简单:读取相关目录并连接。在目前大约159条条目的规模下,每个代理加载10到60条,不需要嵌入索引。原型提示中的字符上限为2000,精炼提示中为4000,这限制了库存增长时的稀释。避免仅使用嵌入检索的决定遵循了最近关于多字段条件检索中单向量嵌入理论限制的结果(Weller等人,2026 (https://arxiv.org/html/2606.30911#bib.bib35))。大多数技能来自每场比赛结束时的一个LLM反思步骤(图5 (https://arxiv.org/html/2606.30911#A2.F5)),其精神源于Reflexion(Shinn等人,2023 (https://arxiv.org/html/2606.30911#bib.bib21))和ExpeL(Zhao等人,2024 (https://arxiv.org/html/2606.30911#bib.bib20)),并配有成功与失败分析对,以便失败模式被明确记录。此外,还有两种特定的技能类型。
相似文章
SkillLens:面向成本高效型大模型智能体的自适应多粒度技能复用
本文提出了 SkillLens,这是一种用于大模型智能体自适应多粒度技能复用的分层框架,在基准任务中展示了更高的准确性和成本效益。
@dair_ai:// 面向多智能体系统的元技能演化 // 多智能体系统能否在不触及...的情况下提升编排能力?
Skill-MAS提出了一种在无需修改模型权重的情况下,为多智能体系统演化元技能以提升编排能力的方法,实现了跨任务和LLM的可迁移性能提升。
SkillHone:一种通过持久决策历史实现持续智能体技能演进的框架
SkillHone 是一种通过持久决策历史和练习反馈来提升研究和工具中介分析任务性能的持续智能体技能演进框架。它在 GAIA 和 WebWalkerQA-EN 基准测试上优于现有方法。
技能并非通用:面向LLM智能体的模型感知技能对齐
本文提出MASA框架,该框架在不修改模型权重的情况下,通过分层进化和模型条件重写器将技能适配到每个LLM骨干网络,相比基线方法最高提升25.8个点。
并非所有技能都有帮助:衡量与修复智能体知识
本文指出,在LLM智能体中简单积累技能可能导致性能倒退,因为对某些任务有益的技能反而会损害其他任务。作者提出Assay框架,该框架衡量每个技能的因果贡献,并对每个任务进行掩码处理,在不更新权重的情况下,在AppWorld和τ-bench上取得了最先进的结果。