Orchestra-o1：全模态智能体编排

arXiv cs.CL 2026/06/15 04:00 论文

agent-orchestration multimodal llm-agent reinforcement-learning open-source benchmark

摘要

Orchestra-o1 是一个全模态智能体编排框架，支持在文本、图像、音频和视频等多种模态间进行高效的智能体协作。它引入了决策对齐群体相对策略优化（DA-GRPO），并在 OmniGAIA 基准测试中取得了最先进的性能。

arXiv:2606.13707v1 Announce Type: cross 摘要：近期智能体集群的成功将基于大语言模型（LLM）的智能体从单智能体工作流范式转变为多智能体系统，凸显了智能体编排在任务分解与协作中的重要性。然而，现有编排框架仅支持有限模态，难以泛化到异构模态共存且交互的更复杂场景。这一局限在全模态场景中尤为突出，此类任务要求对文本、图像、音频和视频等多样输入进行统一理解与协调。本文提出 Orchestra-o1，一种全模态智能体编排框架，旨在支持跨多种模态的高效智能体协作。Orchestra-o1 引入统一编排机制，实现模态感知的任务分解、在线子智能体特化以及并行子任务执行。这种可扩展设计使智能体系统能有效处理涉及异构信息源的复杂现实任务，在 OmniGAIA 基准测试上以 10.3% 的准确率超越第二名方法。此外，我们引入决策对齐群体相对策略优化（DA-GRPO），一种高效的智能体强化学习方法，用于训练 Orchestra-o1-8B，该模型在面对所有现有开源全模态智能体时也取得了最先进的性能。

查看原文

查看缓存全文

缓存时间: 2026/06/15 09:00

# Orchestra-o1: 全模态智能体编排

来源：https://arxiv.org/html/2606.13707

\setheadertext LUMIA Lab

\correspondingemail\emailiconfzhang25@cse\.cuhk\.edu\.hk

∗Equal Contribution

†Corresponding Author

\githublinkhttps://github\.com/zfkarl/Orchestra\-o1

\huggingfacelinkhttps://huggingface\.co/Karl28/Orchestra\-o1\-8B

\setheadertitleOrchestra\-o1: Omnimodal Agent Orchestration

Vireo Zhang∗ Shengju Qian2,† Haoxuan Li3 Hao Wu4 Jinyang Wu4 Donghao Zhou1 Zhihong Zhu3 Zheng Lian5 Xin Wang2 Pheng\-Ann Heng1,†

1CUHK 2LIGHTSPEED 3PKU 4THU 5Tongji University

###### 摘要

最近智能体群的成功将基于大语言模型（LLM）的智能体从单智能体工作流范式转向了多智能体系统，突出了智能体编排在任务分解和协作中的重要性。然而，现有的编排框架仅限于狭窄的模态集合，难以泛化到异构模态共存并相互交互的更复杂场景。这种限制在全模态场景中尤为突出，其中的任务要求对文本、图像、音频和视频等多种输入进行统一理解和协调。在这项工作中，我们提出了 Orchestra-o1，一个全模态智能体编排框架，旨在支持跨多种模态的高效智能体协作。Orchestra-o1 引入了一种统一的编排机制，支持模态感知的任务分解、在线子智能体专业化以及并行子任务执行。这种可扩展的设计使智能体系统能够有效应对涉及异构信息源的复杂现实世界任务，在 OmniGAIA 基准上以 10.3% 的准确率超越第二名方法。此外，我们引入了决策对齐的群体相对策略优化（DA-GRPO），一种高效的智能体强化学习方法，用于训练 Orchestra-o1-8B，该方法在所有现有的开源全模态智能体中取得了最先进的性能。源代码可通过上述链接公开获取。

参考图注

图1：三种全模态智能体的比较。

## 1 引言

基于大语言模型（LLM）的智能体 [luo2025large, wang2024survey] 最近作为构建能够推理、规划、使用工具和与外部环境交互的智能系统的强大范式而兴起。通过用 harness 机制 [pan2026natural, meng2026agent] 增强 LLM，智能体系统显著扩展了语言模型能够完成的任务边界。代表性的应用，如代码生成与执行 [zhang2024codeagent, huang2023agentcoder]、自主网络研究 [team2025tongyi, qiao2025webresearcher]、交互式问题解决 [yu2026webanchor, tao2025webshaper] 以及开放式计算机使用任务 [agashe2025agent, wangcomputer]，已经展示了 LLM 智能体重塑人类生产力和信息获取方式的潜力。最近，智能体群的成功 [team2026kimi] 进一步将研究焦点从单智能体工作流转向了多智能体系统，其中一个主智能体协调多个专门化子智能体，以分解复杂任务、执行子任务并聚合中间结果。这种范式突出了智能体编排的重要性，它决定了在任务求解过程中如何创建、专业化、调度和协调智能体。

尽管取得了这些进展，但现有基于 LLM 的智能体系统大多仍针对有限的模态范围设计，通常聚焦于纯文本任务 [zhang2024cut] 或视觉-语言任务 [geng2025webwatcher]。这在当前智能体研究与现实场景之间造成了明显差距，因为现实场景中信息本质上是全模态的，往往涉及文本、图像、音频和视频的共存与交互。在日常情境中，人类自然地以统一方式处理异构感官信号。例如，在面对面交流中，人们同时解释口语、面部表情、手势和环境线索，然后决定如何相应回应。这种全模态的理解和决策对人类来说很自然，但对现有智能体来说仍然极具挑战性。为了解决全模态任务，智能体不仅需要从多种模态感知信息，还需要推理它们之间的交互，决定需要哪些专门能力，并协调跨多个工具或子智能体的行动。这需要一个统一的框架，既支持全模态感知，也支持高级智能体决策。如图1所示，当前的全模态智能体大致可分为两类。

第一类是本机全模态智能体 [team2026qwen3]，直接使用全模态大语言模型（OLLM）作为智能体后端，并为其配备各种行动工具。在这种设计中，期望同一个模型同时执行感知、推理、规划和工具使用。然而，现有的 OLLM 在同时处理感知和行动方面仍能力有限，尤其是当任务需要长程推理、外部信息搜索、代码执行或细粒度跨模态理解时。结果，即使是 Gemini-3-Pro [gemini3pro] 这样强大的专有全模态模型，在具有挑战性的基准 OmniGAIA [li2026omnigaia] 上也仅取得 62.5% 的准确率。第二类是编排型智能体 [ruan2026aorchestra]，它将感知和行动与高层推理解耦。在这类系统中，通常使用基于文本的语言模型作为主智能体或编排器，而感知和行动则委托给配备了相应工具的专门子智能体。这种设计将高层决策与低层模态处理分离，使系统更加模块化、可扩展，并可能更具可伸缩性，以应对复杂的全模态任务。本文专注于编排型全模态智能体。

然而，设计一个有效的全模态智能体群并非易事，原因如下。首先，许多强大的闭源智能体群体框架，如 Kimi [team2026kimi] 和 Claude [claudeopus46]，隐藏在专有 API 背后，难以将其扩展到全模态研究。其次，现有的开源智能体编排框架 [ruan2026aorchestra, su2025toolorchestra] 通常受限于不完整的感知和行动工具集，以及相对僵化和线性的子智能体工作流。这些限制制约了智能体系统在处理涉及异构模态的复杂任务时的可扩展性和效率。

为此，我们提出了 Orchestra-o1，一个全模态智能体编排框架，旨在支持跨多种模态的高效智能体协作。在模型层面，Orchestra-o1 支持灵活的智能体后端，允许主智能体和子智能体实例化为不同模型，包括开源模型和专有模型。在工具层面，我们提供统一的工具生态系统，包括感知工具和行动工具，使系统能够理解和协调文本、图像、音频和视频等多种输入，同时支持外部信息搜索和代码执行。在脚手架层面，Orchestra-o1 引入了基于智能体技能和上下文记忆的协作编排机制，支持模态感知的任务分解、在线子智能体专业化和并行子任务执行。这些设计共同使 Orchestra-o1 在解决复杂全模态智能体任务时既高效又有效。当使用 GPT-5 [openaigpt5] 作为主智能体时，Orchestra-o1 在 OmniGAIA 基准上建立了新的最先进水平（SOTA），显著优于竞争基线，比 AOrchestra [ruan2026aorchestra] 提高了 32.8%，比 Gemini-3-Pro [gemini3pro] 提高了 10.3%。

除了编排框架，我们进一步探索如何训练开源模型作为 Orchestra-o1 中的主智能体。为此，我们提出了决策对齐的群体相对策略优化（DA-GRPO），一种高效的离线智能体强化学习算法，用于增强编排决策。DA-GRPO 扩展了 GRPO [guo2025deepseek]，并专门针对智能体编排进行了设计。与仅关注最终答案正确性的原始 GRPO 不同，DA-GRPO 明确地将主智能体的步骤级决策与高质量参考轨迹对齐，覆盖任务委托、子智能体选择、工具使用和答案生成等关键决策。利用高质量合成轨迹和基于多维评分标准的奖励设计，我们基于 Qwen3-8B [yang2025qwen3] 训练了 Orchestra-o1-8B，作为 Orchestra-o1 框架内的开源主智能体。实验结果表明，Orchestra-o1-8B 在 OmniGAIA 上显著提升了开源全模态智能体的性能，将此前的最佳准确率从 20.8% 提高到 30.0%。

总而言之，本文的主要贡献如下：

- **全模态智能体编排框架**。我们提出了 Orchestra-o1，一个用于复杂现实世界智能体任务的全模态智能体编排框架。通过模态感知的任务分解、在线子智能体专业化和并行子任务执行，Orchestra-o1 将高层编排与专门的感知和行动执行解耦，作为一个可扩展的开源框架，用于构建全模态智能体群。

- **高效的智能体编排训练方法**。我们开发了 DA-GRPO，一种高效的智能体强化学习算法，用于编排训练。DA-GRPO 基于多维评分标准的奖励设计，将主智能体的步骤级编排决策与高质量参考轨迹对齐，使开源模型在全模态智能体系统中获得更强的委托、规划和决策能力。

- **多方面的实验验证**。大量实验表明，Orchestra-o1 显著优于现有的全模态智能体。凭借强大的专有主智能体，它在 OmniGAIA 上取得了新的最先进水平，以 10.3% 的准确率超越第二名方法。与 AOrchestra 相比，得益于其可并行的编排设计，Orchestra-o1 进一步实现了更快的推理和更好的成本效益。此外，当使用 DA-GRPO 训练时，Orchestra-o1-8B 以很大优势持续优于现有开源全模态智能体。

## 2 相关工作

### 2.1 基于 LLM 的智能体编排

近年来，基于 LLM 的智能体已从单智能体推理系统转向多智能体编排框架。早期工作主要集中在增强单智能体的工具使用和规划能力 [yao2022react, schick2023toolformer]，其中模型与外部工具迭代交互以解决复杂任务。最近，多智能体系统已成为一个有前景的方向，中央编排器协调多个专门化智能体以提高可扩展性和任务分解。代表性工作如 AutoGen 风格的系统 [wu2024autogen] 和智能体群 [team2026kimi] 表明，跨智能体划分职责可以显著提升复杂推理和交互任务的性能。然而，现有的编排框架大多针对基于文本或有限的视觉-语言场景设计 [ruan2026aorchestra, zhang2026flowsteer]，并通常依赖于线性或启发式驱动的工作流。相比之下，现实世界的任务需要更灵活的协调策略，能够动态调整智能体角色、并行化执行并集成异构工具。我们的工作与以往研究不同，专注于一个统一的编排框架，支持全模态环境中的模态感知分解和可扩展的多智能体协作。

### 2.2 全模态智能体智能

全模态智能体将传统的视觉-语言或音频-语言系统扩展到处理文本、图像、音频和视频等异构输入，统一在一个框架内。早期的多模态模型主要关注双模态设置，如视觉-语言理解 [li2023blip, liu2023visual]，展示了在对齐视觉和文本表示方面的强大能力。随着大规模多模态模型的发展，最近的工作开始探索全模态智能体 [gemini3pro, team2026qwen3, ai2025ming, team2025longcat]。这些模型旨在统一跨多种模态的感知和推理，实现更通用的交互能力。然而，在需要长程推理、工具使用和多步骤决策的复杂智能体场景中，它们的性能仍然有限。为了解决这些局限性，最近的方法引入了外部工具增强或模块化解耦，以改进全模态推理 [li2026omnigaia]。尽管如此，这些方法往往缺乏协调多个专门组件的系统性编排机制。相比之下，我们的工作专注于一种显式的全模态智能体编排范式，其中感知、推理和行动通过结构化的多智能体系统进行解耦和协调，从而实现更可扩展和高效的全模态智能体。

## 3 方法

在本节中，我们首先回顾智能体编排的背景并介绍必要的预备知识（第3.1节）。然后介绍我们提出的全模态智能体编排框架 Orchestra-o1（第3.2节），随后是推导该框架内开源主智能体的训练方法（第3.3节）。

参考图注

图2：Orchestra-o1 框架概述。

### 3.1 预备知识

##### 问题定义。
我们将全模态智能体编排形式化为一个关于异构输入的多轮决策问题。给定一个任务实例 \(x = (q, \mathcal{M})\)，其中 \(q\) 表示自然语言问题，\(\mathcal{M} = \{m_i\}_{i=1}^N\) 表示一组辅助模态输入，如图像、音频和视频。目标是以简洁的最终答案 \(\hat{a}\) 最大化任务奖励 \(R(\hat{a}, a^*)\)，其中 \(a^*\) 为真实答案。

##### 系统形式化。
基于编排的智能体系统由一个主智能体、一组子智能体后端和一个工具生态系统组成。主智能体 \(\pi_\theta\) 充当编排器，而不是直接操作每种模态。在编排轮次 \(t\)，它观察到一个状态：

\[
s_t = \big(q, \mathcal{M}, c_t, H_t, \mathcal{B}, \mathcal{T}\big),
\]

其中 \(c_t\) 是累积的上下文，\(H_t\) 是结构化的子任务历史，\(\mathcal{B}\) 是可用的子智能体模型集合，\(\mathcal{T}\) 是子智能体可用的工具集合。主智能体从两种动作类型输出一个结构化的决策 \(y_t\)：\(y_t \in \{\mathtt{delegate}, \mathtt{complete}\}\)。如果 \(y_t = \mathtt{complete}\)，主智能体终止轨迹并返回 \(\hat{a}\)。如果 \(y_t = \mathtt{delegate}\)，则生成一批 \(K_t\) 个子任务：

\[
\mathcal{U}_t = \{u_{t,j}\}_{j=1}^{K_t}, \quad u_{t,j} = (I_{t,j}, C_{t,j}, b_{t,j}, T_{t,j}),
\]

Orchestra-o1：全模态智能体编排

相似文章

Orchard：一个开源的智能体建模框架

Orchestria

OrchestraML

Orc（暂定名）- 可审计且声明式的 AI 工作流

面向大规模企业AI的自主事件驱动多智能体编排

提交意见反馈