为多模型流水线构建路由层,根据优先级为每个请求选择正确的LLM

Reddit r/AI_Agents 工具

摘要

一个路由层,根据优先级标志(速度、成本、质量、平衡)使用加权评分自动选择最佳LLM,决策时间低于1毫秒,内置回退、缓存和指标。

如果你正在构建需要链式调用多个LLM的智能体,可能会遇到这种情况:流水线中的每个步骤并不都需要相同的模型。快速提取步骤不需要Opus,最终综合步骤可能不应该使用Flash。但你最终还是会硬编码某个模型,希望它能适用于所有情况。这个路由器允许你为每个请求设置优先级标志(速度/成本/质量/平衡),并通过加权评分自动选择最佳模型。路由决策时间低于1毫秒,因为纯粹是数学计算,没有额外的网络跳转。如果所选模型失败,则自动回退;对重复请求使用Redis缓存;指标端点提供每个模型的p95/p99延迟。该路由基于OpenRouter构建,因此其目录中的任何模型都可使用。将其接入智能体流水线的LLM调用层会非常容易。GitHub仓库在下方评论中👇。本项目使用Neo AI Engineer构建。
查看原文

相似文章

面向LLM代理中功能等价工具的延迟-质量路由

arXiv cs.LG

本文介绍了 LQM-ContextRoute,一种上下文赌博机路由器,用于在 LLM 代理中选择功能等效的工具提供商,平衡延迟和答案质量。它在网络搜索和检索器基准测试上优于基线。

HyDRA: 面向异构LLM池的混合动态路由架构

arXiv cs.CL

HyDRA是一种面向异构LLM池的混合动态路由架构,能够预测每个查询的细粒度能力需求,并通过不足匹配选择最便宜且能力满足需求的模型,在保持质量的同时实现高达72.5%的成本节省。该架构已部署于GitHub Copilot的VS Code Chat自动模式,并将路由与模型目录解耦,模型变更时无需重新训练。