为多模型流水线构建路由层,根据优先级为每个请求选择正确的LLM
摘要
一个路由层,根据优先级标志(速度、成本、质量、平衡)使用加权评分自动选择最佳LLM,决策时间低于1毫秒,内置回退、缓存和指标。
如果你正在构建需要链式调用多个LLM的智能体,可能会遇到这种情况:流水线中的每个步骤并不都需要相同的模型。快速提取步骤不需要Opus,最终综合步骤可能不应该使用Flash。但你最终还是会硬编码某个模型,希望它能适用于所有情况。这个路由器允许你为每个请求设置优先级标志(速度/成本/质量/平衡),并通过加权评分自动选择最佳模型。路由决策时间低于1毫秒,因为纯粹是数学计算,没有额外的网络跳转。如果所选模型失败,则自动回退;对重复请求使用Redis缓存;指标端点提供每个模型的p95/p99延迟。该路由基于OpenRouter构建,因此其目录中的任何模型都可使用。将其接入智能体流水线的LLM调用层会非常容易。GitHub仓库在下方评论中👇。本项目使用Neo AI Engineer构建。
相似文章
跨四个LLM层级的代理工作路由:编排器、顾问、深度推理、Premier
作者分享了一个实用的四层LLM路由栈,用于代理工作。其中,快速的编排器处理大部分请求,仅在需要深度推理时才会升级到昂贵的模型,显著降低了成本并提升了交互体验。
面向LLM代理中功能等价工具的延迟-质量路由
本文介绍了 LQM-ContextRoute,一种上下文赌博机路由器,用于在 LLM 代理中选择功能等效的工具提供商,平衡延迟和答案质量。它在网络搜索和检索器基准测试上优于基线。
HyDRA: 面向异构LLM池的混合动态路由架构
HyDRA是一种面向异构LLM池的混合动态路由架构,能够预测每个查询的细粒度能力需求,并通过不足匹配选择最便宜且能力满足需求的模型,在保持质量的同时实现高达72.5%的成本节省。该架构已部署于GitHub Copilot的VS Code Chat自动模式,并将路由与模型目录解耦,模型变更时无需重新训练。
@Modular:HTTP路由问题已经解决了多年。然后大语言模型出现了。它们的后端不是可互换的…
Modular发布了一篇博客文章,解释为什么传统的HTTP路由不适用于LLM推理工作负载。文章描述了他们如何在其分布式推理框架中处理有状态的异构GPU pod(包括KV缓存、专用的预填充/解码后端以及对话级路由),这些是传统无状态路由算法无法解决的。
RouteProfile:阐明用于路由的LLM配置文件的设计空间
本文介绍了RouteProfile,这是一个用于路由系统中LLM配置文件的设计空间,证明了结构化配置文件和查询级信号能够提高路由性能以及对新模型的泛化能力。