@Montreal_AI:一个0.6B参数的模型学会了管理大模型。这就是TRINITY背后的理念——一篇由Jinglue Xu、Qi Sun、Pe…
摘要
TRINITY是一个轻量级的0.6B参数协调器,它通过学习使用进化策略为多个LLM分配角色(思考者、执行者、验证者)来编排它们。在编码、数学、推理和领域知识任务上,它优于单个模型和现有的协调方法。
查看缓存全文
缓存时间: 2026/05/23 02:01
一个0.6B参数的模型学会了管理大模型。这是TRINITY背后的核心理念,一篇由Jinglue Xu、Qi Sun、Peter Schwendeman、Stefan Nielsen、Edoardo Cetin和Yujin Tang在ICLR 2026上发表的新论文。这篇论文不是在问:“我们如何构建一个无所不知的模型?“它提出了一个更有趣的问题:“我们如何构建一个智能调度层,让它知道谁来思考、谁来行动、谁来验证?” TRINITY是一个轻量级的LLM协调器。它不合并权重,不要求架构兼容,不需要访问闭源模型的内部结构。它也不试图把协调器变成房间里最聪明的模型。相反,它在测试时编排一大组强大的模型,包括闭源和开源模型。在每个环节,TRINITY选择一个模型并赋予它三个角色之一:
- 思考者(Thinker)——规划与分解
- 工作者(Worker)——求解与执行
- 验证者(Verifier)——评判和接受/修订 这听起来可能简单,实则不然。太多的多智能体系统仍然停留在“提示词+希望“的阶段。TRINITY学习的是协调策略。一个紧凑的约0.6B参数的语言模型生成对话的隐藏状态表征。然后一个微小的头使用这些表征来决定下一个模型-角色对。作者使用一种进化策略——sep-CMA-ES——来优化这个协调器,因为问题本身代价高昂、维度极高、奖励稀疏。结果不仅仅是更好的路由,而是学到的劳动分工。论文报告,在编码、数学、推理和领域知识等任务上,TRINITY的表现优于单个模型和现有协调方法。在其全功率设置下,TRINITY在LiveCodeBench上达到了86.2%的性能,并能迁移到包括 AIME、BigCodeBench、MT-Bench 和 GPQA-D 等未见过的基准测试。
这里最重要的理念超越了基准测试本身。AI的未来可能不是单一的超大模型。它可能是一个模型组织、一个小小的指挥者、一个专家团队、一个关于规划、执行和验证的协议、一个学会如何分配认知的智能层。这感觉像是一场真正的转变:从更大的模型到更好的系统,从原始能力到协调能力,从“哪个模型最好?“到“什么结构能让多个模型更好地协同工作?”
全文致谢作者:Jinglue Xu, Qi Sun, Peter Schwendeman, Stefan Nielsen, Edoardo Cetin, Yujin Tang。 论文:TRINITY: An Evolved LLM Coordinator https://arxiv.org/abs/2512.04695 我附上第一页,因为摘要值得细读。AI的未来可能不是单一的,而是协调的。
#人工智能 #LLM #多智能体系统 #机器学习 #进化算法
Trinity:一个进化的LLM协调器
来源:https://arxiv.org/html/2512.04695 Jinglue Xu¹, Qi Sun¹,³* , Peter Schwendeman², Stefan Nielsen¹, Edoardo Cetin¹, Yujin Tang¹ ¹日本Sakana AI ²美国密歇根大学 ³日本东京科学大学
摘要
融合多样化的基础模型前景广阔,但权重合并受限于不匹配的架构和封闭的API。Trinity通过一个轻量级协调器解决了这一问题,该协调器编排大型语言模型(LLM)之间的协作。协调器由一个紧凑的语言模型(约0.6B参数)和一个轻量级头部(约10K参数)组成,通过进化策略进行优化,实现高效且自适应的委派。Trinity通过多轮处理查询,在每一轮中,协调器将三个角色(思考者、工作者或验证者)之一分配给选定的LLM,从而有效地将复杂技能的获取从协调器中剥离。大量实验证明,Trinity在包括编码、数学、推理和领域知识在内的各种任务中始终优于单个模型和现有方法,并能稳健地泛化到分布外任务上。在既定基准测试中,Trinity达到了最优性能,包括在LiveCodeBench上创下86.2%的新纪录。理论和实证分析突出了两个关键成功因素:(1)协调器的隐藏状态表征提供了丰富的输入上下文;(2)在高维度和严格预算约束下,可分离协方差矩阵适应进化策略算法利用潜在的块ε-可分离性,相比RL、模仿学习和随机搜索具有显著优势。
1. 引言
一个关于大型语言模型(LLM)的重要研究方向是遵循经验缩放定律,通过增大模型尺寸、训练数据和计算量来获取增益(Kaplan et al., 2020; Hoffmann et al., 2022)。然而,这种缩放方式在多大程度上依然高效并能带来持续回报是未知的,并且往往需要大量资源。微观层面的另一种方法是模型合并(Akiba et al., 2025; Wortsman et al., 2022; Yang et al., 2024; Kuroki et al., 2024),它寻求参数级别的整合。然而,由于架构不兼容以及许多高性能模型的闭源性质,这种方法通常不切实际。鉴于这些限制,我们采用一种宏观层面的方法:通过协调实现测试时的模型组合,将来自不同提供商的多个最先进模型的互补优势融合在一起,而不修改其权重。利用先前的数据和训练投入,这种协调可以在不重新训练单个模型的情况下带来性能提升。
对于协调器来说,核心挑战在于获得对给定查询丰富的上下文理解,以做出有效的决策。我们假设这种信号可以从紧凑语言模型的内部表示(特别是其隐藏状态)中高效提取(Allen-Zhu and Li, 2023)。在基于自注意力的Transformer模型中,隐藏状态编码了输入(以及在生成后,输出)序列的上下文表示。仅从输入提取的隐藏状态反映了输入上下文;而在生成后提取的隐藏状态则额外捕获了模型生成的输出及其潜在推理过程。对于输出序列,倒数第二个令牌的隐藏状态承载了丰富的上下文。它关注整个序列并指导特殊令牌(如
请参阅标题 图 1:我们的协调方法的概览和一个示例。左图:循环协调架构。在每一轮中,完整的对话记录被传入一个紧凑的协调器模型。一个轻量级头部选择一个LLM并为其分配三个角色之一:思考者(T)、工作者(W)或验证者(V)。在向所选LLM发送请求之前,一个消息处理模块会注入特定于角色的提示。右图:多轮协调的示例。为解决一个复杂的折旧问题,Trinity调用一个思考者(第1轮)来分解任务,一个工作者(第2轮)进行计算,以及一个验证者(第3轮)来验证答案并识别边界情况。
基于这些上下文表示,我们的方法Trinity使用一个SLM(0.6B参数)和轻量级头部(总可学习参数少于20K)来协调多个LLM(包括开源和闭源模型),通过多轮协议进行。在每一轮中,Trinity选择一个LLM,并通过将原始查询与之前所有轮的完整记录拼接来构建其输入。为确保协调器保持轻量级并剥离复杂技能的获取,Trinity为所选代理分配三个不同角色之一:(1)思考者,负责制定高级策略和分解;(2)工作者,负责执行具体的问题求解步骤;(3)验证者,负责评估当前解决方案的合理性和完整性。过程在验证者被选择并接受当前响应作为最终答案时停止,或者在固定轮次预算耗尽时停止。图1给出了我们方法的概览,以及一个协调示例。
优化这种表示到协调的映射具有挑战性。我们观察到参数之间的耦合很弱——每个参数对标量奖励的影响微乎其微,这使得像REINFORCE这样的传统方法的每个参数梯度信噪比低,因此低效。训练还受到成本约束,因为每一步都需要运行被协调的代理进行推理。我们发现,无导数的协方差矩阵适应进化策略(CMA-ES)(Hansen et al., 2003),具有对角协方差的版本——可分离CMA-ES(sep-CMA-ES)(Ros and Hansen, 2008),在这种特定场景下(高维度、弱参数相关性、高单步成本)是有效的。我们提供了理论和实证证据,证明在这种极其紧张的预算场景下(对于10k维问题,仅1.5k-40k次评估),sep-CMA-ES显著优于RL和随机搜索基线,表明优化目标具有很强的块ε-可分离性(见定义1)。在包括Math500(Lightman et al., 2023)、MMLU(Hendrycks et al., 2020)、RLPR(Yu et al., 2025)和LiveCodeBench(Jain et al., 2024)在内的四个分布内基准测试中,Trinity始终优于先前方法,相比第二好的方法实现了平均21.9%的相对误差降低。在公平调整输出令牌预算的情况下,它也比所有单模型基线表现更好。值得注意的是,Trinity在LiveCodeBench(2025年1月至4月)上设立了新的最先进水平,达到了86.2±0.5%的pass@1。此外,Trinity能够零样本迁移到四个未见任务,包括AIME(Veeraboina, 2023)、BigCodeBench(Zhuo et al., 2024)、MT-Bench(Bai et al., 2024)和GPQA-D(Rein et al., 2024),其表现超过了它所协调的每一个单模型。
我们的主要贡献总结如下:
- •一种轻量级且有效的协调机制。我们证明,来自SLM隐藏状态的丰富上下文信号足以让一个微小的头部协调多个多样的LLM(总可学习参数少于20K),这是一种此前未被充分探索的模型组合方法。
- •一种高效的训练方法。我们从理论和实证上证明,在我们问题中具有挑战性、预算受限的条件下,sep-CMA-ES相对于RL、模仿学习和随机搜索是一种更优的优化选择。
- •最先进的性能和泛化能力。Trinity在LiveCodeBench上设立了新纪录,并在广泛的基准测试中优于现有方法。它还能稳健地泛化到未见任务,并发展出涌现的、任务感知的协调策略。
2. 问题定义
设S为交互状态s的集合(原始查询以及到目前为止完整的多轮对话)。一个SLM将每个s映射到一个表示状态h(s)∈H⊂R^d(例如,倒数第二个令牌的隐藏向量)。一个参数为θ∈P⊂R^n的轻量级协调头部将h(s)作为输入,并输出代理-角色对(有限动作集A)的对数概率: f_θ: H → R^{|A|}, π_θ(a|s) ∝ exp(f_θ(h(s))a), a ∈ A. 策略π_θ在所有多轮轨迹T上诱导出一个分布,其中轨迹τ=(s_0, a_0, …, s_T),其水平T ≤ B_turn(B_turn表示固定轮次预算)。在轨迹结束时,揭示出一个终端奖励R(τ) ∈ {0,1}。优化目标J(θ) := E{τ~π_θ}[R(τ)]是协调器θ的期望终端奖励。简而言之,表示空间H提供上下文特征,而协调空间P参数化T中所有轨迹上的策略。我们将每次单次、完整的端到端运行(即采样一个轨迹τ)视为一次原子评估,或一次伯努利调用,因为奖励服从伯努利分布。由于每次运行涉及多次LLM调用,这是我们希望约束的成本,因此我们在严格的原子评估预算B_env下寻求θ* ∈ arg max_{θ∈P} J(θ),该预算统计在估计J(θ)时使用的终端奖励的伯努利调用次数(例如,通过复制/平均)。
3. Trinity
为解决第2节中概述的问题,我们提出了Trinity,一个用于协调多个多样LLM的轻量级自适应框架(图1左)。其核心是我们的方法引入了一个通过sep-CMA-ES优化的协调器,它学习编排一个外部LLM池,并在多轮推理过程中为它们分配不同的角色。
3.1 高效的参数化
为了高效地推导表示空间和协调空间,协调器采用了一种高效的参数化方案,如图2所示。我们使用一个预训练的SLM作为骨干,并引入两组不同的可训练参数。首先,我们在协调器SLM的最终隐藏层之后直接附加一个轻量级头部。为了协调L个代理,该头部将隐藏状态h∈R^d投影到大小为L+3的输出,提供两组logits:L个用于选择LLM的logits和三个用于分配其角色的logits。这个头部定义了协调空间的基本结构。其次,受到近期高效微调工作的启发(Sun et al., 2025),我们使用奇异值微调方法来适配骨干网络的一个小子集层。对于协调器SLM的选择权重矩阵子集,我们进行奇异值分解,只学习奇异值的尺度,同时保持正交矩阵固定。这种参数化方案非常高效,使得可学习参数的总数保持在
相似文章
@jinyuhou0: 在主流基准测试中,我们的30B模型与规模大20-30倍的系统(gpt-5.4-xhigh、DeepSeek-V3.2、Kimi-K2.5)匹敌,而……
一款新的30B模型在主流基准测试中与规模大20-30倍的系统匹敌,同时相比同类30/32B智能体大语言模型,使用的推理令牌减少高达95%。这是通过一个学习型配置器实现的,该配置器决定何时以及如何进行推理。模型和代码已开放。
TRIDENT:通过三维多样化红队数据合成增强大型语言模型安全性
TRIDENT是一个新颖的框架和数据集合成管道,用于通过覆盖词汇多样性、恶意意图和越狱战术的三维红队数据来增强LLM安全性。在TRIDENT-Edge上微调Llama-3.1-8B与基线模型相比,危害分数降低14.29%,攻击成功率下降20%。
@jerryjliu0:一组新的开源权重模型正在登顶文档理解排行榜,INF 刚刚发布了两个模型:Inf…
Infinity 发布了两个开源权重模型,Infinity-Parser2-Pro(35B)和 Infinity-Parser2-Flash(2B),它们登顶了 ParseBench 文档理解排行榜,利用了合成数据引擎和一种新颖的联合强化学习算法。
TeamTR:多智能体LLM协调的信任域微调
本文发现共享上下文多智能体LLM团队在顺序微调时存在一种结构性失效模式,并将其形式化为复合占位偏移。为此提出了TeamTR,一种信任域框架,通过重采样轨迹并施加每个智能体的散度控制,实现了平均7.1%的性能提升。
@AlphaSignalAI: 一个4B模型现在可以在科学家之前预测科学突破。研究人员通常通过组…
一篇新论文介绍了GIANTS-4B,一个通过强化学习训练、拥有40亿参数的模型,它通过结合基础论文中的想法来预测科学见解,在相似度和引文潜力方面优于像Gemini 3 Pro这样的大型模型。