Maestro：利用强化学习编排分层模型-技能集成

Hugging Face Daily Papers 2026/05/21 00:00 论文

摘要

Maestro是一个基于强化学习的框架，能够动态组合冻结的专家模型和技能集成，处理多模态任务，使用4B参数编排器实现70.1%的平均准确率，超过GPT-5和Gemini-2.5-Pro。

大规模语言模型（LLM）和模块化技能的激增，赋予了自主智能体日益强大的能力。现有框架通常依赖单一LLM和固定逻辑来与这些技能交互。这导致了一个关键瓶颈：不同的LLM在不同领域具有独特优势，但当前框架未能利用模型和技能的互补优势，从而限制了其在下游任务中的表现。在本文中，我们提出了Maestro（面向专家-技能目标强化编排的多模态智能体），这是一个基于强化学习（RL）的编排框架，将异构多模态任务重新表述为分层模型-技能注册表上的序列决策过程。Maestro并非将所有知识整合到单个模型中，而是训练一个轻量级策略来动态组合冻结的专家模型和两层技能库的集成，每一步决定是否调用外部专家、选择哪个模型-技能对以及何时终止。该策略通过基于结果的RL进行优化，无需逐步骤监督。我们在十个代表性多模态基准上评估了Maestro，这些基准涵盖数学推理、图表理解、高分辨率感知和领域特定分析。仅使用4B编排器，Maestro的平均准确率达到70.1%，超过了GPT-5（69.3%）和Gemini-2.5-Pro（68.7%）。关键的是，学到的协调策略无需重新训练即可泛化到未见过的模型和技能：向注册表中添加领域外专家后，在四个具有挑战性的基准上平均准确率达到59.5%，优于所有闭源基线。Maestro进一步保持了高计算效率和低延迟。源代码可在https://github.com/jinyangwu/Maestro获取。

查看原文

查看缓存全文

缓存时间: 2026/05/22 06:38

论文页面 - Maestro：强化学习编排层级模型-技能集成

Source: https://huggingface.co/papers/2605.22177

摘要

一个由强化学习驱动的编排框架可动态组合专家模型和技能以处理多模态任务，在低计算开销下实现卓越性能。

大型语言模型（LLMs）和模块化技能的激增赋予了自主智能体日益强大的能力。现有框架通常依赖单一LLM和固定逻辑来与这些技能交互。这引出了一个关键瓶颈：不同的LLM在不同领域各有优势，但当前的框架未能利用模型和技能的互补优势，从而限制了下游任务的性能。在本文中，我们提出Maestro（面向专家技能定向强化编排的多模态智能体），这是一个由强化学习（RL）驱动的编排框架，将异构多模态任务重新定义为在层级模型-技能注册表上的序列决策过程。Maestro并非将所有知识整合到单一模型中，而是训练一个轻量级策略来动态组合冻结专家模型和双层技能库的集成，在每一步决定是否调用外部专家、选择哪个模型-技能对以及何时终止。该策略通过基于结果的RL进行优化，无需步骤级监督。我们在涵盖数学推理、图表理解、高分辨率感知和领域特定分析的十个代表性多模态基准上评估了Maestro。仅使用4B编排器，Maestro就达到了70.1%的平均准确率，超过了GPT-5（69.3%）和Gemini-2.5-Pro（68.7%）。关键的是，学到的协调策略可以泛化到未见过的模型和技能而无需重新训练：将域外专家加入注册表后，在四个具有挑战性的基准上取得了59.5%的平均成绩，优于所有闭源基线。Maestro还保持了高计算效率和低延迟。源代码可在 https://github.com/jinyangwu/Maestro 获取。

查看 arXiv 页面 (https://arxiv.org/abs/2605.22177) 查看 PDF (https://arxiv.org/pdf/2605.22177) GitHub5 (https://github.com/jinyangwu/Maestro) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.22177)

在你的智能体中获取此论文：

hf papers read 2605.22177

没有最新CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型1

Jinyang23/Maestro-4B 5B• 更新于约3小时前 (https://huggingface.co/Jinyang23/Maestro-4B)

引用此论文的数据集0

没有链接此论文的数据集

在数据集的README.md中引用arxiv.org/abs/2605.22177以从此页面链接它。

引用此论文的Space0

没有链接此论文的Space

在Space的README.md中引用arxiv.org/abs/2605.22177以从此页面链接它。

包含此论文的收藏集0

没有包含此论文的收藏集

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接它。

Maestro：利用强化学习编排分层模型-技能集成

论文页面 - Maestro：强化学习编排层级模型-技能集成

摘要

引用此论文的模型1

Jinyang23/Maestro-4B 5B• 更新于约3小时前 (https://huggingface.co/Jinyang23/Maestro-4B)

引用此论文的数据集0

引用此论文的Space0

包含此论文的收藏集0

相似文章

50% OpenClaw，50% 自定义封装 = 快乐的管道！

我用一个POMDP风格的状态-动作图替换了我们智能体的CLAUDE.md，任务成功率提升16到20个百分点

网络匿名已悄然消亡，却无人提及

VLD-RAG：面向长篇幅、视觉丰富多页文档的智能视觉语言检索增强生成

指令微调模型在局部重用人句法方面超过人类

提交意见反馈