model-routing

#model-routing

使用任何模型与任何提供商，配合官方OpenAI Codex桌面应用，无需修改其代码，同时继续使用官方模型？

Reddit r/LocalLLaMA ↗ · 2026-05-31

本文介绍了如何通过修改OpenAI Codex桌面应用的配置文件，使其指向自定义服务器，并使用代理伪装模型名称，从而在保持官方功能不受影响的情况下，支持多提供商的各种AI模型。

0 人收藏 0 人点赞

#model-routing

重新思考逐步模型路由：一种面向表格推理的成本高效视角

arXiv cs.CL ↗ · 2026-05-29 缓存

本文提出EcoTab，一种表格感知的逐步路由框架，分别估计表格标记和文本标记的不确定性，以动态地在小型和大型模型之间路由推理步骤，在表格推理任务上实现了更好的准确性与效率权衡。

0 人收藏 0 人点赞

#model-routing

面向逐步模型路由的评分引导过程奖励

arXiv cs.AI ↗ · 2026-05-29

RoRo 提出了一种面向大型推理模型逐步模型路由的评分引导过程奖励框架，将过程奖励与结果奖励结合，通过 GRPO 训练路由策略，在推理基准测试中优于基线方法。

0 人收藏 0 人点赞

#model-routing

@freeman1266: 通过优化策略和模型路由，将每月数千美元的 AI 编程成本大幅削减 80% 如果低效的上下文管理和盲目使用高昂模型，将会使账单飞涨。通过实施提示词缓存、精简上下文文件以及修复工具调用的自动循环，开发者可以显著减少无效的 Token 消耗。…

X AI KOLs Timeline ↗ · 2026-05-26

本文介绍了通过提示词缓存、精简上下文、多模型路由（将日常编码任务交给Kimi 2.6，核心架构用高级模型）等策略，将AI编程成本削减80%的实用技巧。

0 人收藏 0 人点赞

#model-routing

你更愿意调整一个模型的推理深度，还是在两个模型之间切换？

Reddit r/AI_Agents ↗ · 2026-05-24

这是对使用单个可调深度的万亿参数推理模型（如 Ring-2.6-1T）与在多个专用模型之间切换这两种方案的权衡思考，探讨哪种方法对代理工作流更简洁或更具成本效益。

0 人收藏 0 人点赞

#model-routing

@Soranlan: https://x.com/sweexx9/status/2057560520916414628/video/1… 这个项目肯定会火，但一定要谨慎看。有人做了个 GitHub repo，把 Claude Code 的流量重定向到 Dee…

X AI KOLs Timeline ↗ · 2026-05-23 缓存

介绍了一个将Claude Code流量重定向到DeepSeek、Kimi等十多个免费模型的GitHub repo，已有2万开发者使用。文章强调该工具揭示了前端交互、工作流、模型供应商等各层可替换的趋势。

0 人收藏 0 人点赞

#model-routing

我的AI代理账单从每周200美元降到40美元，当我停止在每个子任务上都使用Opus时

Reddit r/AI_Agents ↗ · 2026-05-22

一位开发者分享如何通过将简单子任务路由到更便宜的模型（如DeepSeek V4 Pro和腾讯混元），同时保留复杂推理任务给Opus 4.7，将AI代理的每周成本从200美元降至40美元，且大部分工作质量相近。

0 人收藏 0 人点赞

#model-routing

@adambcohen93: Weave 正在推出全球排名第一的提示路由器。它能让你的令牌使用效率提升70%……

X AI KOLs Following ↗ · 2026-05-20 缓存

Weave 推出一款提示路由器，可分析提示并将其路由到最具成本效益的模型，声称在不损失性能的情况下降低高达70%的成本。它与现有的工作流程（如 Claude、Cursor 和 Codex）集成，并且源代码可用。

0 人收藏 0 人点赞

#model-routing

哪些 FinOps 工具和策略对大规模 AI 代理运营真正有效？

Reddit r/AI_Agents ↗ · 2026-05-19

讨论大规模 AI 代理运营中成本管理的有效 FinOps 策略，涵盖模型路由、提示词精简、缓存等策略，以及按代理、工作流和客户跟踪成本的需求。

0 人收藏 0 人点赞

#model-routing

将我的智能体拆分为廉价路由模型和高级合成模型，费用降低了约75%

Reddit r/AI_Agents ↗ · 2026-05-19

一位开发者将其AI智能体的LLM调用拆分为廉价的路由模型（GPT-OSS 120B）用于工具选择，以及高级模型（gpt-5.4）用于合成，成本降低了约78%，同时保持了输出质量。

0 人收藏 0 人点赞

#model-routing

@DeRonin_: 我实际如何在模型之间路由：推文草稿：Sonnet 4.6 长篇文章：Opus 4.6 代码工作：Kimi 2.6 代理…

X AI KOLs Following ↗ · 2026-05-15

一位用户分享了他们在不同任务（如推文草稿、文章、代码、代理循环和图像生成）之间使用各种AI模型的个人路由策略，并认为单一模型配置会导致更高成本。

0 人收藏 0 人点赞

#model-routing

AI代理安全是模型说‘不’的小小祈祷。你们是如何路由模型的？

Reddit r/AI_Agents ↗ · 2026-05-13

作者在Gmail上进行了实验，通过OAuth连接AI代理，发送了经过混淆的提示注入邮件。前沿模型有时能捕捉到攻击，而廉价模型则默默执行，揭示了代理安全很大程度上取决于模型成本和令牌预算，而非架构安全措施。

0 人收藏 0 人点赞

#model-routing

@wquguru: new-api从2023年4月至今，已经有3年有余，支撑了大大小小成百上千个中转站，市面上超过90%都是用这个系统，而new-api的核心开发者们 @Ion_Mio_ @Seefs_ 则深藏功与名，这篇文章尝试挖掘一下new-api和另…

X AI KOLs Timeline ↗ · 2026-05-12 缓存

本文介绍了开源AI模型路由工具New-API自2023年4月发布以来的发展情况，指出其已占据市面上超90%的中转站份额，并探讨了该工具的核心开发者贡献与底层路由算法。

0 人收藏 0 人点赞

#model-routing

Switchcraft：用于智能体工具调用的 AI 模型路由

arXiv cs.AI ↗ · 2026-05-11 缓存

本文介绍了 Switchcraft，这是首个专为智能体工具调用优化的 AI 模型路由器，旨在降低推理成本。通过使用轻量级的 DistilBERT 分类器，它在保持高工具使用准确性的同时，实现了显著的成本节约。

0 人收藏 0 人点赞

#model-routing

我们不再手动优化 LLM 技术栈——现在它实现了自我优化

Reddit r/artificial ↗ · 2026-05-11

本文描述了一家企业如何实现向自我优化 LLM 技术栈的转型。该系统利用生产环境中的调用追踪数据，自动路由请求并微调模型，从而显著降低了成本并提升了性能。

0 人收藏 0 人点赞

#model-routing

本地模型是否比预期更快变得“足够好”？

Reddit r/LocalLLaMA ↗ · 2026-05-07

这篇文章讨论了本地AI模型在日常任务中日益增长的可行性，暗示了向混合架构的转变，这种架构优化成本和延迟，而不是仅仅依赖前沿的云模型。

0 人收藏 0 人点赞

model-routing

提交意见反馈