标签
本文介绍了如何通过修改OpenAI Codex桌面应用的配置文件,使其指向自定义服务器,并使用代理伪装模型名称,从而在保持官方功能不受影响的情况下,支持多提供商的各种AI模型。
本文提出EcoTab,一种表格感知的逐步路由框架,分别估计表格标记和文本标记的不确定性,以动态地在小型和大型模型之间路由推理步骤,在表格推理任务上实现了更好的准确性与效率权衡。
RoRo 提出了一种面向大型推理模型逐步模型路由的评分引导过程奖励框架,将过程奖励与结果奖励结合,通过 GRPO 训练路由策略,在推理基准测试中优于基线方法。
本文介绍了通过提示词缓存、精简上下文、多模型路由(将日常编码任务交给Kimi 2.6,核心架构用高级模型)等策略,将AI编程成本削减80%的实用技巧。
这是对使用单个可调深度的万亿参数推理模型(如 Ring-2.6-1T)与在多个专用模型之间切换这两种方案的权衡思考,探讨哪种方法对代理工作流更简洁或更具成本效益。
介绍了一个将Claude Code流量重定向到DeepSeek、Kimi等十多个免费模型的GitHub repo,已有2万开发者使用。文章强调该工具揭示了前端交互、工作流、模型供应商等各层可替换的趋势。
一位开发者分享如何通过将简单子任务路由到更便宜的模型(如DeepSeek V4 Pro和腾讯混元),同时保留复杂推理任务给Opus 4.7,将AI代理的每周成本从200美元降至40美元,且大部分工作质量相近。
Weave 推出一款提示路由器,可分析提示并将其路由到最具成本效益的模型,声称在不损失性能的情况下降低高达70%的成本。它与现有的工作流程(如 Claude、Cursor 和 Codex)集成,并且源代码可用。
讨论大规模 AI 代理运营中成本管理的有效 FinOps 策略,涵盖模型路由、提示词精简、缓存等策略,以及按代理、工作流和客户跟踪成本的需求。
一位开发者将其AI智能体的LLM调用拆分为廉价的路由模型(GPT-OSS 120B)用于工具选择,以及高级模型(gpt-5.4)用于合成,成本降低了约78%,同时保持了输出质量。
一位用户分享了他们在不同任务(如推文草稿、文章、代码、代理循环和图像生成)之间使用各种AI模型的个人路由策略,并认为单一模型配置会导致更高成本。
作者在Gmail上进行了实验,通过OAuth连接AI代理,发送了经过混淆的提示注入邮件。前沿模型有时能捕捉到攻击,而廉价模型则默默执行,揭示了代理安全很大程度上取决于模型成本和令牌预算,而非架构安全措施。
本文介绍了开源AI模型路由工具New-API自2023年4月发布以来的发展情况,指出其已占据市面上超90%的中转站份额,并探讨了该工具的核心开发者贡献与底层路由算法。
本文介绍了 Switchcraft,这是首个专为智能体工具调用优化的 AI 模型路由器,旨在降低推理成本。通过使用轻量级的 DistilBERT 分类器,它在保持高工具使用准确性的同时,实现了显著的成本节约。
本文描述了一家企业如何实现向自我优化 LLM 技术栈的转型。该系统利用生产环境中的调用追踪数据,自动路由请求并微调模型,从而显著降低了成本并提升了性能。
这篇文章讨论了本地AI模型在日常任务中日益增长的可行性,暗示了向混合架构的转变,这种架构优化成本和延迟,而不是仅仅依赖前沿的云模型。