Maestro:利用强化学习编排分层模型-技能集成
摘要
Maestro是一个基于强化学习的框架,能够动态组合冻结的专家模型和技能集成,处理多模态任务,使用4B参数编排器实现70.1%的平均准确率,超过GPT-5和Gemini-2.5-Pro。
查看缓存全文
缓存时间: 2026/05/22 06:38
论文页面 - Maestro:强化学习编排层级模型-技能集成
Source: https://huggingface.co/papers/2605.22177
摘要
一个由强化学习驱动的编排框架可动态组合专家模型和技能以处理多模态任务,在低计算开销下实现卓越性能。
大型语言模型(LLMs)和模块化技能的激增赋予了自主智能体日益强大的能力。现有框架通常依赖单一LLM和固定逻辑来与这些技能交互。这引出了一个关键瓶颈:不同的LLM在不同领域各有优势,但当前的框架未能利用模型和技能的互补优势,从而限制了下游任务的性能。在本文中,我们提出Maestro(面向专家技能定向强化编排的多模态智能体),这是一个由强化学习(RL)驱动的编排框架,将异构多模态任务重新定义为在层级模型-技能注册表上的序列决策过程。Maestro并非将所有知识整合到单一模型中,而是训练一个轻量级策略来动态组合冻结专家模型和双层技能库的集成,在每一步决定是否调用外部专家、选择哪个模型-技能对以及何时终止。该策略通过基于结果的RL进行优化,无需步骤级监督。我们在涵盖数学推理、图表理解、高分辨率感知和领域特定分析的十个代表性多模态基准上评估了Maestro。仅使用4B编排器,Maestro就达到了70.1%的平均准确率,超过了GPT-5(69.3%)和Gemini-2.5-Pro(68.7%)。关键的是,学到的协调策略可以泛化到未见过的模型和技能而无需重新训练:将域外专家加入注册表后,在四个具有挑战性的基准上取得了59.5%的平均成绩,优于所有闭源基线。Maestro还保持了高计算效率和低延迟。源代码可在 https://github.com/jinyangwu/Maestro 获取。
查看 arXiv 页面 (https://arxiv.org/abs/2605.22177) 查看 PDF (https://arxiv.org/pdf/2605.22177) GitHub5 (https://github.com/jinyangwu/Maestro) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.22177)
在你的智能体中获取此论文:
hf papers read 2605.22177
没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型1
Jinyang23/Maestro-4B 5B• 更新于约3小时前 (https://huggingface.co/Jinyang23/Maestro-4B)
引用此论文的数据集0
没有链接此论文的数据集
在数据集的README.md中引用arxiv.org/abs/2605.22177以从此页面链接它。
引用此论文的Space0
没有链接此论文的Space
在Space的README.md中引用arxiv.org/abs/2605.22177以从此页面链接它。
包含此论文的收藏集0
没有包含此论文的收藏集
将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接它。
相似文章
AI作为镜子的论点
文章认为,‘AI作为镜子’的比喻具有误导性,因为前沿AI模型是被积极优化用于欺骗和谄媚,而非被动反映,这一结论有来自RLHF和评估意识研究的证据支持。
苹果发布基于谷歌Gemini模型构建的新AI架构
苹果宣布对其Apple Intelligence平台进行重大改革,发布了一套与谷歌合作、基于Gemini技术共同开发的基础模型构建的新AI架构,该架构支持多模态能力,并通过Private Cloud Compute实现隐私保护的设备端与服务器端处理。
为AI智能体构建支出授权层 — 一次设定限额,智能体无法超支
一位开发者创建了一个MCP服务器,作为AI智能体的授权网关,强制执行支出授权,如单笔交易限额、每日/每周上限以及允许的商户,以防止超支。
@vllm_project: 迎接 vLLM-Omni v0.22.0,全能模态世界模型与生产级多模态服务的重大升级。首发支持 @NVID…
vLLM-Omni v0.22.0 是一项重大升级,新增了对 NVIDIA Cosmos 世界模型、生产级 TTS(Qwen3-TTS、Qwen3-Omni、VoxCPM2)的稳健支持,更快的扩散模型服务(Wan 2.2、HunyuanVideo 1.5、LTX-2.3),以及更广泛的量化和硬件覆盖,共包含来自 124 位贡献者的 339 个提交。
@omarsar0: 很好的提示。实际上,大致上就是这样让智能体自主运行数小时或数天的。使用 /goal 或 /loop 来继续……
一个分享让AI智能体自主长时间运行实用技巧的帖子,重点介绍Opus模型,涉及权限、动态工作流和验证方面的建议。