微代理:通过模型API内部协作超越前沿模型
摘要
vLLM 引入了 Semantic Router,这是一种服务层原语,通过微代理实现多个模型之间的协作,使得路由器能够在不修改模型权重的情况下提升输出质量。
暂无内容
查看缓存全文
缓存时间: 2026/06/29 20:06
# Micro-Agent:将协作嵌入模型API,突破前线模型
来源:https://vllm.ai/blog/2026-06-29-micro-agent-frontier-models
每个人都在期待下一个前沿模型。
但更有趣的层面,可能是它前面的那一层。
路由器正在成为AI推理的控制面。它们最初的职责很务实:将正确的请求路由到正确的模型。这之所以重要,是因为生产环境下的AI已经不再是单一模型的世界。
路由器可以通过决策何时该用前沿模型、何时开源或本地模型就足够,来降低成本。它可以通过将敏感领域路由到更严格的模型、更严格的过滤器或更强的审查路径,来使安全策略得以执行。它还可以协调云端与边缘计算,将私有或低延迟的意图留在本地,而将更困难的任务升级到云端。
这些都是重要的任务。
但路由器的下一个任务更有意思:
> 路由器可以让模型变得更好。
不是通过改变权重。也不是要求每个应用都构建一个定制的智能体图。而是将一个模型API调用转变为服务层内部一个受约束的协作。
图1:路由器正从模型选择转向能力构建。
这就是Sakana Fugu (https://sakana.ai/fugu/) 引起如此大反响的原因:它把一个简单但强大的想法变成了商业产品——"模型"可以是一个界面,而这个界面背后可以是一个团队。围绕这个想法的研究,包括Fugu技术报告 (https://arxiv.org/abs/2606.21228) 以及协调方面的论文如Conductor (https://arxiv.org/abs/2512.04388) 和Trinity (https://arxiv.org/abs/2512.04695),为思考编排提供了有用的语言。
但 vLLM Semantic Router 的愿景在抽象放置的位置上有所不同。协作不应该只存在于某个商业端点的内部,或某个应用特定的智能体图中。它应该成为一种开放的服务层原生能力。
vLLM Semantic Router 将这个想法带入了开放的服务层。用户仍然只调用一个模型:
```
{
"model": "vllm-sr/auto",
"messages": [{"role": "user", "content": "..."}]
}
```
在那个稳定的模型标识背后,路由器可以选择一个配方,分发给多个工作节点,收集法定人数,验证分歧,合成最终答案,修复输出契约,并返回一个正常的 OpenAI 兼容响应。
重点不是暴露复杂性。
重点是让协作感觉就像一个模型。
## Looper 是运行时
在 vLLM Semantic Router 中,looper 是受约束微智能体的执行运行时。
一个请求以普通的聊天完成形式进入路由器。路由器提取信号,将其投射到任务形状或风险区间,匹配一个决策,然后选择一个算法。该算法可以是正常的单模型路由,也可以是 looper 路由。
目前,主要的 looper 模式有:
- **置信度(Confidence)**:一种顺序升级循环。它先尝试较便宜的候选,衡量置信度,只有当分数过低时才升级。
- **评分(Ratings)**:一种受约束的扇出循环。它在硬并发上限下运行多个候选,并使用评分感知的权重进行聚合。
- **ReMoM**:重复的混合模型推理。它扇出广度样本,等待足够多的成功响应,然后运行一轮最终合成。
- **融合(Fusion)**:一种“专家组-评审-终审”模式。独立的模型响应成为评审和终审者的证据。
- **工作流(Workflows)**:一个微智能体工作流运行时。它支持静态角色或动态规划器,执行受约束的 worker 步骤,并合成最终响应。
图2:Looper 算法在路由器内部运行,同时保留模型 API 接口。
实现细节很重要。Looper 不是“多问几个模型”的口号。它是一个小型的运行时,拥有预算、拓扑、跟踪和故障策略。
### 置信度:只在困难案例上花费升级成本
置信度是一种成本感知的循环。它从一个较小或较便宜的候选开始,然后评估答案是否足够自信以停止。置信度信号可以来自 token 级的对数概率、对数概率边际、混合分数、自我验证或 AutoMix 风格的蕴涵验证器。
如果分数超过阈值,路由器立即返回。如果分数太低,路由升级到下一个候选。重要的不是存在升级,而是升级成为显式的路由器策略:阈值、失败行为和停止条件都是可见且可调的。
图3:置信度将升级转化为可测量的停止策略。
### 评分:在硬上限下的并行质量
评分是一种受控的集成循环。它并行启动多个候选,但仅限制在配置的 `max_concurrent` 上限内。这使得它在需要从多个模型视图中获益,但又不想让每个请求变成无限制扇出的场景下非常有用。
路由器收集成功的响应,应用评分感知的聚合,并根据路由策略处理失败。在实践中,评分非常适合 A/B 风格评估、集成策略,以及操作者已经拥有有意义的每个候选质量信号的路由。
图4:评分保持多候选执行在界限内且评分感知。
### ReMoM:带契约的广度
当任务具有高推理方差且答案格式必须经受住协作考验时,ReMoM 非常有用。它扇出多个推理尝试,等待最小成功法定人数,然后要求一个合成模型将证据合并到所需的输出契约中。
如果合成失败但之前的 worker 产生了有效的证据,路由不必崩溃为 API 错误。它可以回退到最佳有效证据,并仍然返回正常的响应。
图5:ReMoM 将广度、法定人数、合成和回退视为服务时控制。
### 融合:将分歧视为信号
融合从一个不同的假设开始。有时有用的对象不是平均答案;而是分歧的结构。独立的专家组答案成为证据。评审看到一致性、矛盾和独特见解,然后终审者返回一个答案,同时跟踪信息折叠在 API 背后。
这使得融合在存在看似合理的竞争路径时尤为有用:困难的多选推理、长篇专家判断,或者单个自信响应可能脆弱的精确答案任务。
图6:融合不隐藏分歧。它将分歧转化为证据。
### 工作流:预算下的角色
工作流是最具智能体特征的模式,同时也是最需要严格边界的模式。规划器只能选择允许的 worker 模型。计划被验证。步骤受最大步数、最大并行度、超时和错误策略约束。最终响应仍然需要满足输出契约。
对于 SWE 风格的任务,这意味着路由器可以表达规划器、补丁器、验证器和终审者,而无需让应用程序拥有自己的定制智能体栈。对于生产服务来说,这一区别至关重要:循环很强大,但它仍然受基础设施治理。
图7:工作流为路由器提供了有边界的角色系统,而非无限制的自主智能体。
### 自动配方:一个模型名称,多种循环
公共表面仍然是一个模型名称:`vllm-sr/auto`。在内部,路由器可以使用信号和投射来为请求选择正确的循环。难度、风险、契约压力、延迟和成本不再是提示中的注释。它们是路由事实,可以选择置信度、评分、ReMoM、融合、工作流或回退路径。
图8:自动配方让信号选择协作模式,同时保留单一的模型身份。
这就是"智能体即应用逻辑"与"微智能体即服务运行时"之间的区别。路由器控制预算、策略、拓扑、跟踪和故障模式。
## 配方胜过单一通用循环
我们从评估工作中得到的最重要教训不是某一种算法总是赢。
恰恰相反:
> 最好的循环是任务定制的。
GPQA-Diamond 需要严格的多选答案保留。LiveCodeBench 需要可运行代码和隐藏测试的鲁棒性。Humanity's Last Exam 需要分歧解决和精确答案格式化。SWE 风格的任务需要规划器、补丁器、验证器和终审者。
这就是为什么 `vllm-sr/auto` 不应该意味着"总是运行最大的循环"。它应该意味着:选择适合这个任务的配方。
图9:信号和投射让路由器选择与基准测试形状匹配的协作模式。
在我们的配方中,这种形状是显式的:
- GPQA-Diamond 将硬科学多选提示路由到一个具有严格 `ANSWER: X` 保留的 ReMoM 配方。
- LiveCodeBench 在选择代码形状循环之前,寻找约束、起始代码、标准输入、浮点容差、超时风险和隐藏测试风险。
- HLE 检测形式推理、分歧风险、长上下文和精确答案压力,然后选择更深的 ReMoM、较小的融合或回退路径。
这就是为什么路由器侧的协作不仅仅是提示工程。提示只是其中一部分。配方还定义了模型池、模型角色、推理努力、并发度、法定人数、超时、合成模型、回退策略、输出契约和可观测性标签。
## 记分卡是证明,但不是全部故事
我们在三个硬基准上评估了当前的闭源模型配方。这些数字很有用,因为它们表明这个想法不仅仅是美学上的。
图10:VSR Closed 和 VSR Hybrid 在 LiveCodeBench、GPQA-Diamond 和 Humanity's Last Exam 上的记分卡视图。
> 在这张记分卡中,**VSR Closed** 表示配方仅使用闭源模型后端。**VSR Hybrid** 表示配方混合使用开源和闭源模型,在配方需要更高风险判断、修复、合成或回退的地方使用更强的闭源模型。
| 基准 | VSR 记分卡行 | 分数 | 参考行 |
|------|-------------|------|--------|
| LiveCodeBench, 2025年1月-4月 | VSR Closed | 92.6 | Fugu Ultra 92.0, Fugu 90.3, GPT-5.5 90.7, Opus 4.8 90.3 |
| GPQA-Diamond | VSR Closed | 96.0 | Fugu Ultra 95.5, Fugu 95.5, Gemini 3.1 Pro 94.3, GPT-5.5 93.6 |
| Humanity's Last Exam | VSR Closed | 50.0 | Fugu Ultra 50.0, Fugu 48.5, Gemini 3.1 Pro 45.0 |
| Humanity's Last Exam | VSR Hybrid | 47.1 | GLM-5.2 40.5, Qwen3.7 Max 41.4, GPT-5.5 41.4 |
记分卡需要仔细阅读。它不是声称每个请求都应该总是使用每一个闭源模型。那将是错误的产品。
声明是:路由器拥有的协作可以创造出比其底层的单个调用更强的模型身份。它可以超越或匹配前沿单模型基线,同时保留一个 API 表面。
这才是真正的产品形状:
- 用户看到一个模型名称。
- 操作者控制配方。
- 系统可以在不更改客户端集成的情况下改进。
- 开源和闭源模型可以在相同的服务抽象下参与。
## 这对模型服务意味着什么
旧的服务栈是被动的。它接受模型名称并将请求发送到后端。
下一个服务栈是主动的。它会问:
- 关于这个请求,我们有什么证据?
- 它属于什么质量、成本、延迟和安全区间?
- 一个模型够了吗?
- 如果不够,应该运行什么协作模式?
- 必须保留哪个答案契约?
- 如果某个提供者慢或出错,应该怎么办?
- 如何暴露一个干净的响应,同时保留完整的跟踪?
那不是应用胶水。那是基础设施。
微智能体属于路由器,因为路由器已经拥有微智能体所需的一切:模型别名、提供者策略、凭证、成本元数据、信号、决策、重试、超时、跟踪和 OpenAI 兼容的响应语义。
## 总结
"前沿模型"这个短语开始意味着两件事。
一个是检查点。
另一个是系统边界。
最近的编排浪潮使这个方向变得可见。vLLM Semantic Router 的赌注是:这种能力应该是可编程的、可观测的和开放的服务层原生的。
下一轮模型竞赛仍将涉及更好的模型。但它也将涉及更好的路由器:知道何时省钱、何时强制执行安全、何时留在边缘、何时上云,以及何时将一个请求转化为一个小的、纪律严明的团队。
这就是模型 API 内部微智能体的承诺。
## 致谢
我们感谢来自 MBZUAI (https://mbzuai.ac.ae/)、McGill University (https://www.mcgill.ca/)、Mila (https://mila.quebec/) 和 Agentic Intelligence Lab (https://agentic-in.ai/) 的研究人员,尤其是 Prof. Xue Liu (https://www.linkedin.com/in/xueliu) 和 Dr. Bowei He (https://www.linkedin.com/in/bowei-he-8a9450199/),感谢他们在路由器侧模型协作方面的研究合作与讨论。
个人贡献者:Huamin Chen (https://www.linkedin.com/in/huaminchen/),Yincheng Ren (https://www.linkedin.com/in/yincheng-ren/)。
我们还感谢 AMD 的 Andy Luo (https://www.linkedin.com/in/andyluo77/) 和 Haichen Zhang (https://www.linkedin.com/in/haichen-zhang-9010b6382/) 提供的 AMD GPU 评估支持。
相似文章
@ClementDelangue: 超级兴奋于开源路由器系统和路由模型,比如 @vllm_project 的语义路由器:https://huggingfa…
Clement Delangue 强调了 vLLM 的新语义路由器,这是一个开源系统,用于将LLM查询路由到最合适的模型,旨在将价值从昂贵的前沿模型转移到多样化的开源模型生态系统。
@alexatallah: 如果你是一位研究人员,希望→开展严谨的研究,探讨多个模型如何超越前沿→利…
OpenRouter 推出 Fusion API,这是一种复合模型,能以一半的价格实现高智能,利用了最大的 LLM 市场。
@aiDotEngineer: 您的智能体现在可以训练模型。来自@mervenoyann 的观点:开源模型已经迎头赶上。GLM 5.1 在人工智能分析指数上领先……
@mervenoyann 的演讲展示了开源模型(如 GLM 5.1)已赶上闭源模型,并说明了 Hugging Face 生态系统如何让智能体训练模型、执行推理和构建工作流。
@Xudong07452910: 很多人用 AI coding 的默认习惯是:直接上最强模型。 同一个任务,Sonnet 做还是 Opus 做?大多数时候这个决策是拍脑袋的。 所以这篇 Agent-as-a-Router 提了一个很现实的问题: 如果不同模型擅长的任务不一…
这篇论文提出Agent-as-a-Router框架,将模型路由转化为动态循环过程,根据任务类型和实时执行反馈选择最合适的LLM,以提升编码任务的性能与成本效率。
将我的智能体拆分为廉价路由模型和高级合成模型,费用降低了约75%
一位开发者将其AI智能体的LLM调用拆分为廉价的路由模型(GPT-OSS 120B)用于工具选择,以及高级模型(gpt-5.4)用于合成,成本降低了约78%,同时保持了输出质量。