@tomas_hk: 是的，我们在此分享了我们的经验：

X AI KOLs Following 2026/06/08 16:03 工具

model-routing ai-infrastructure ai-gateway cost-optimization agent-inference model-selection pareto-curve

摘要

这是一份全面指南，解释了模型路由技术，该技术能够智能地为每个请求选择最合适的AI模型，以优化成本、质量和延迟。文章将模型路由与AI网关进行了对比，并强调了其在代理型AI工作负载中的重要性。

@julien_c 是的，没错 ♥️ 我们在此分享了我们的经验：https://t.co/X4o4yov5b7

查看原文

查看缓存全文

缓存时间: 2026/06/08 19:27

@julien_c 是的 ♥️

我们在这里分享了学习心得：https://t.co/X4o4yov5b7

模型路由全面指南

来源：https://www.notdiamond.ai/blog/a-comprehensive-guide-to-model-routing 模型路由是一种实践，旨在针对每个传入的 AI 请求，智能地以最低成本选择最佳模型，而不是对每个请求都使用单一模型。

路由器与 AI 网关不同，后者提供对多种 AI 模型的访问。随着智能体推理消耗的激增，以及单个编程智能体会话就能烧掉过去一个月的预算，智能模型路由正迅速成为现代 AI 基础设施中最重要的层次之一。

本指南面向工程和平台领导者，帮助他们理解路由究竟是什么，如何区分路由器与网关，以及路由在智能体栈中的位置。

模型路由帕累托曲线

什么是模型路由？

模型路由是一个决策层，位于 AI 应用与一组 AI 模型之间。当请求到达时，路由器决定由哪个模型处理。这个决策可以通过不同方式做出——静态规则、分类器、学习策略或级联——但核心思想相同：不再对每个请求都绑定一个固定模型，而是将请求与最合适的模型匹配。

路由可以分解为三个核心维度：

模型：有哪些模型可供路由？可能是来自同一提供商的两个模型（例如 Claude Haiku 和 Claude Opus），也可能是来自专有和开源提供商的几十个模型。
信号：路由器依据什么信息做出决策？这可以是从简单启发式规则（提示长度、用户层级）到语义分类器，再到学习到的模型质量预测器。
目标：路由器优化什么？成本？质量？延迟？还是加权组合？

不同的路由解决方案在这三个维度上做出不同选择，而正确的选择高度依赖于具体工作负载。

网关与路由器：厘清区别

作为一个新兴类别，路由经常遭受术语混淆。产品经常互换地称自己为“网关”或“路由器”。两者之间的区别很简单：

网关让你访问模型。路由器决定使用哪个模型。

网关是一个统一接口。它让你的应用调用一个 API 而非多个，处理对多个提供商的认证，规范化请求和响应格式，并提供统一计费。网关的价值在于整合：你不再需要维护针对 N 个提供商的 N 个集成，并且能获得组织级控制。但网关并不决定使用哪个模型——这个决策硬编码在你的应用中。

路由器决定何时使用哪个模型。它接收传入请求，动态选择处理它的模型。路由器的价值在于优化：你不再为不需要最强模型的步骤支付高昂费用，而是通过异质模型池获得整体收益，无需手动编排哪个模型服务于哪个查询。

网关和路由器并非竞争类别，生产级 AI 栈两者都需要。

为什么模型路由对智能体至关重要

在过去一年中，路由已经从只有最成熟团队使用的优化手段，演变为企业管理编程智能体推理消耗爆炸的关键基础设施。Claude Code、Codex、Cursor、OpenClaw、OpenCode、Cline、Aider、OpenHands、Pi 以及越来越多的内部和开源框架，现在正部署在工程组织中，对 token 的渴求巨大。管理这些成本正迅速成为 AI、IT 和财务团队的首要任务。

单个 Claude Code 会话每小时可消耗超过 100 万 token，持续数小时，许多公司现在不到一个季度就烧光了年度编程智能体预算。问题只会更糟：前沿模型越来越贵也越来越强大，意味着智能体运行更久，每个任务成本更高。与此同时，最便宜的模型也在变好，这扩大了完全依赖顶级模型的机会成本。

由于编程智能体工作负载的复杂性多变，当单一前沿模型处理所有任务时，你必然在简单步骤上多付钱，以保险应对困难步骤。能够动态地将模型与每个请求匹配的路由器，使团队能够在不牺牲质量的情况下大幅降低成本。虽然编程智能体是最明显的例子，但这对任何任务复杂度变化的工作流都成立，包括客户支持智能体、研究智能体、聊天机器人和 RAG 系统。

智能路由的价值：性能、成本、韧性

智能路由的优势基于三个好处，按重要性大致排序。

成本

路由的主要好处是能够在保持质量的同时显著节省成本。模型路由节省的费用范围从 20% 到 95%，具体取决于用例和模型，但底层机制是一致的：大多数工作负载包含长尾的简单请求，不需要最强模型。将这些请求路由到更便宜的模型，同时保留昂贵模型给真正需要的步骤，缩小了团队实际支出与最优策略下支出之间的差距。对于智能体工作负载，节省效果会叠加，因为单个用户请求可能引发数百个下游模型调用。

质量

智能路由的另一个重要好处是它能在质量上超越单个模型。虽然前沿模型在给定基准上的总体得分可能相似，但每个模型在子类别和单个请求上的表现通常更不均匀。通过将每个请求发送给最强模型，路由可以实现比最佳单个模型高出 5-20% 的准确率提升。这是模型异质优势的自然结果。

延迟

较小的模型可能更快，而更强大的模型可能具有不同的推理努力设置，影响响应时间。将延迟敏感的查询路由到能处理它们的最快模型，能产生更灵敏的应用。这通常对聊天和语音用例最重要，并且要求路由解决方案本身不增加多于节省的延迟。

缓存感知路由

路由最重要的一个方面是路由决策与提示缓存之间的相互作用。

当智能体发送带有大共享前缀（先前消息、系统提示、工具架构）的请求时，提供商会缓存该前缀，并在后续命中时按标准输入价格的一小部分收费。对于长时间运行的编程会话，维护缓存对于良好的 token 经济至关重要：缓存读取通常约为未缓存输入成本的 10%。如果路由器将十轮对话发送给模型 A，然后将下一轮发送给模型 B，新模型必须重新处理整个未缓存的上下文，总成本可能超过一直使用更昂贵模型的成本。不感知缓存的路由是在对抗误导性成本函数。

缓存感知路由将缓存视为路由决策的一等输入。一个好的路由器应跟踪缓存何时真正有效，何时因 TTL 过期（通常 5 分钟）、上下文压缩、媒体附件或前缀的任何编辑而失效。它还利用子智能体路由来在更狭窄的任务上受益于更便宜的模型。并且它权衡缓存经济性与路由经济性，这取决于对话长度和池构成：短对话积累的缓存不足以让保留有价值；由单个强大模型和多个廉价模型组成的池可以保持强模型上的缓存有效，仅在必要时升级；而纯廉价模型池可以每轮最大化质量，因为每个选项的底层 token 成本都很低。

一个在单轮评估中表现优秀的路由器可能会在真实编程会话中失去所有纸面上的节省，因为它没有考虑缓存。这是智能体工作负载路由与聊天路由最明显的分叉点，也是任何想在智能体场景中利用的路由解决方案必需的功能。

路由在智能体栈中的位置

对于大规模使用编程智能体或构建智能体系统的团队，正确的思维模式是在工作流的多个层面考虑路由。

在会话层面。 一些智能体会话很简单（修正拼写错误、重命名变量），一些很复杂（重构模块、调试分布式系统问题）。会话级路由器可以决定以哪个模型为基础启动会话。

在子智能体层面。 编程框架和其他智能体系统经常启动子智能体来并行化工作或隔离特定子任务。每个子智能体有自己的上下文和需求画像。子智能体级路由为每个衍生工作选择合适的模型。

在任务层面。 在会话或子智能体内，智能体通常将工作分解为任务。规划任务不同于代码生成任务，后者又不同于摘要任务。用户也可能在会话中途切换任务。任务级路由为每个任务选择合适的模型。

在步骤层面。 在任务内部，单个步骤变化更大。解释工具调用的结果与提出修复的推理步骤有不同的要求。

确定性路由与智能路由

动态路由可以分为两种类型：确定性路由和智能路由。

确定性路由 依赖于预定义规则来决定路由到哪个模型，而不考虑请求内容。这包括静态多模型编排（“在摘要步骤使用 Haiku”）、回退路由（“如果延迟超过 2 秒则回退到不同模型”）和负载均衡（“将 50% 流量发送到推理提供商 A，50% 到提供商 B”）。确定性路由通常用于提高 可靠性 和 可预测性。

智能路由 通过分析输入本身来做出路由决策。路由器检查请求内容——使用分类器、嵌入模型、级联检查或学习策略——并预测池中哪个模型对于特定提示最能满足目标。智能路由通常用于提高成本和质量。

这些类别是不同的且互补的，生产环境两者都有益：智能路由器做出主要决策以优化成本和质量，同时确定性回退用于捕捉故障。

智能模型路由的工作原理

智能路由器使用几种不同的技术将输入转换为模型推荐。

启发式路由

最简单的路由方法基于提示的表面特征（关键词匹配、提示长度、正则表达式模式）硬编码规则。这种方法设置快速但脆弱。它难以处理语义细微差别，在边缘情况下失效，并且随着规则数量增长而难以维护。作为第一遍可能有用，但很少足以作为主要路由机制。

语义路由

在语义路由中，决策由在设置时嵌入向量的示例短语定义。运行时，传入的提示被嵌入并通过余弦相似度与短语向量匹配，最接近的路由获胜。这种方法速度快，可扩展到许多路由，并且比关键词匹配更健壮，因为它理解含义。主要限制是它仅与提供的示例短语一样好，需要随着语义类别和对应模型能力的变化进行维护，并且可能难以处理多轮对话上下文，其中关键意图不在最新消息中。

基于LLM的路由

路由器本身是一个 LLM，它读取传入的提示并将其分类到某个类别，然后将原始提示交给与该类别关联的模型。这种方法灵活，比启发式路由能更好处理细微差别，并可通过提示更改适应新的路由任务。然而，问题在于这种架构常常是自相矛盾的，因为它需要在每个请求的关键路径上添加一次完整的 LLM 推理调用，这增加了团队最初想要消除的成本和延迟。希望利用基于LLM的路由的团队应准备好投资微调其 LLM 分类器，以实现可扩展性和投资回报率。

复杂度分类器路由

一个训练好的分类器估计每个传入请求的难度，然后将请求路由到与该难度相匹配的模型。简单请求去廉价模型；复杂请求升级到更强大的模型。这种方法比基于LLM的路由更快更便宜，因为分类器很小，并且比启发式路由泛化更好。主要限制是复杂度是一个粗略的信号：两个具有相同复杂度分数的请求可能有非常不同的模型适配，因为难度本身不捕捉领域专业化。此外，随着模型能力的发展和新型号的发布，分类器必须不断重新训练。

预测性路由

一个学习模型——在基准、内部评估或生产流量上训练——预测每个候选模型在给定提示上的表现，然后选择对所选目标（通常表示为质量、成本和/或延迟的加权权衡）具有最佳预测结果的那个。与之前手动构建路由决策树的方法不同，这种方法默认是数据驱动的。因此，这种架构在利用帕累托前沿方面提供了最大的潜力，因为它实际学习了池中每个模型的优缺点，而不是依赖静态假设。但它也更难构建，因为你需要好的训练信号和衡量成功的方法。

级联路由

在级联路由中，请求首先被发送到最便宜的模型。如果输出足够好——无论是由置信度分数、二次检查还是验证机制判断——则接受并返回。如果不是，则升级到更强的模型。级联在成本上保守，并提供自然的质检后盾。然而，它需要一个验证方法，该方法至少要与廉价模型本身一样便宜或更便宜。此外，它不能用于延迟敏感的应用，因为级联可能需要每个请求多次顺序的 LLM 调用。

在实践中，生产路由器通常是组合式的——在预测分类器之上叠加级联，或带有确定性关键词检查的语义路由。正确的组合取决于工作负载、池中的模型以及应用对成本、延迟和质量的敏感度。

如何评估模型路由解决方案

如果你正在考虑购买或构建路由器，以下是应使用来评估解决方案的问题：

路由器基于什么做出模型推荐？ 如果它只在头部、规则或可用性上路由，那么它是一个确定性路由器。