为多模型流水线构建路由层,根据优先级为每个请求选择正确的LLM
摘要
一个路由层,根据优先级标志(速度、成本、质量、平衡)使用加权评分自动选择最佳LLM,决策时间低于1毫秒,内置回退、缓存和指标。
如果你正在构建需要链式调用多个LLM的智能体,可能会遇到这种情况:流水线中的每个步骤并不都需要相同的模型。快速提取步骤不需要Opus,最终综合步骤可能不应该使用Flash。但你最终还是会硬编码某个模型,希望它能适用于所有情况。这个路由器允许你为每个请求设置优先级标志(速度/成本/质量/平衡),并通过加权评分自动选择最佳模型。路由决策时间低于1毫秒,因为纯粹是数学计算,没有额外的网络跳转。如果所选模型失败,则自动回退;对重复请求使用Redis缓存;指标端点提供每个模型的p95/p99延迟。该路由基于OpenRouter构建,因此其目录中的任何模型都可使用。将其接入智能体流水线的LLM调用层会非常容易。GitHub仓库在下方评论中👇。本项目使用Neo AI Engineer构建。
相似文章
@Modular:HTTP路由问题已经解决了多年。然后大语言模型出现了。它们的后端不是可互换的…
Modular发布了一篇博客文章,解释为什么传统的HTTP路由不适用于LLM推理工作负载。文章描述了他们如何在其分布式推理框架中处理有状态的异构GPU pod(包括KV缓存、专用的预填充/解码后端以及对话级路由),这些是传统无状态路由算法无法解决的。
从早期经验中学习智能体路由
本文介绍了 BoundaryRouter,这是一个无需训练的框架,通过根据早期经验将查询路由至轻量级推理或完整智能体执行来优化大型语言模型(LLM)智能体的使用。此外,本文还提出了 RouteBench,这是一个用于评估路由性能的基准,显示出在速度和准确率方面的显著提升。
@amitiitbhu: 新文章:LLM 路由,阅读链接:https://outcomeschool.com/blog/llm-routing…
一篇教程博客文章,介绍 LLM 路由——即根据成本、延迟和质量,将用户查询定向到最合适的 LLM 的实践方法。涵盖路由策略、LLM 路由器的结构解析,以及与混合专家模型(Mixture of Experts)的对比。
我们不再手动优化 LLM 技术栈——现在它实现了自我优化
本文描述了一家企业如何实现向自我优化 LLM 技术栈的转型。该系统利用生产环境中的调用追踪数据,自动路由请求并微调模型,从而显著降低了成本并提升了性能。
TRACER:基于追踪的自适应成本高效路由用于LLM分类
TRACER是一个开源系统,它在LLM分类端点的生产追踪数据上训练轻量级机器学习代理,并通过一个一致性门控路由请求,仅当代理与原始模型的一致性超过指定阈值时才激活代理。该方法在意图分类基准上实现了83-100%的代理覆盖率,同时保持了对处理边界和故障模式的可解释性。