为多模型流水线构建路由层,根据优先级为每个请求选择正确的LLM

Reddit r/AI_Agents 工具

摘要

一个路由层,根据优先级标志(速度、成本、质量、平衡)使用加权评分自动选择最佳LLM,决策时间低于1毫秒,内置回退、缓存和指标。

如果你正在构建需要链式调用多个LLM的智能体,可能会遇到这种情况:流水线中的每个步骤并不都需要相同的模型。快速提取步骤不需要Opus,最终综合步骤可能不应该使用Flash。但你最终还是会硬编码某个模型,希望它能适用于所有情况。这个路由器允许你为每个请求设置优先级标志(速度/成本/质量/平衡),并通过加权评分自动选择最佳模型。路由决策时间低于1毫秒,因为纯粹是数学计算,没有额外的网络跳转。如果所选模型失败,则自动回退;对重复请求使用Redis缓存;指标端点提供每个模型的p95/p99延迟。该路由基于OpenRouter构建,因此其目录中的任何模型都可使用。将其接入智能体流水线的LLM调用层会非常容易。GitHub仓库在下方评论中👇。本项目使用Neo AI Engineer构建。
查看原文

相似文章

从早期经验中学习智能体路由

arXiv cs.CL

本文介绍了 BoundaryRouter,这是一个无需训练的框架,通过根据早期经验将查询路由至轻量级推理或完整智能体执行来优化大型语言模型(LLM)智能体的使用。此外,本文还提出了 RouteBench,这是一个用于评估路由性能的基准,显示出在速度和准确率方面的显著提升。

TRACER:基于追踪的自适应成本高效路由用于LLM分类

Hugging Face Daily Papers

TRACER是一个开源系统,它在LLM分类端点的生产追踪数据上训练轻量级机器学习代理,并通过一个一致性门控路由请求,仅当代理与原始模型的一致性超过指定阈值时才激活代理。该方法在意图分类基准上实现了83-100%的代理覆盖率,同时保持了对处理边界和故障模式的可解释性。