routing

#routing

@ClementDelangue: 超级兴奋于开源路由器系统和路由模型，比如 @vllm_project 的语义路由器：https://huggingfa…

X AI KOLs Timeline ↗ · 9小时前缓存

Clement Delangue 强调了 vLLM 的新语义路由器，这是一个开源系统，用于将LLM查询路由到最合适的模型，旨在将价值从昂贵的前沿模型转移到多样化的开源模型生态系统。

0 人收藏 0 人点赞

#routing

Devin Fusion（8分钟阅读）

TLDR AI ↗ · 昨天缓存

Cognition 推出了 Devin Fusion，一种多模型管理系统，采用“副手”架构在前沿模型与高性价比模型之间动态分配任务，在 FrontierCode 基准测试中实现了前沿性能，同时成本降低 35%。

0 人收藏 0 人点赞

#routing

@LinusEkenstam: ROT — 代币回报（Return on Tokens）。我们都知道终有一天会走到这一步。从一开始，Tokenmaxxing 就是个愚蠢的主意。它……

X AI KOLs Following ↗ · 2天前缓存

作者批评了在LLM使用中追求token最大化的趋势，并主张通过优化和路由转向代币回报（ROT），以实现可持续的AI部署。

0 人收藏 0 人点赞

#routing

AI代理的未来可能不在于更大的上下文窗口

Reddit r/AI_Agents ↗ · 4天前

这篇文章认为，AI代理架构应从持有全部上下文的单体代理转向一种路由模型，即代理将任务委托给专业化服务，类似于软件从单体架构演进到微服务的方式。

0 人收藏 0 人点赞

#routing

使用任意模型（包括 GLM 5.2）运行 Codex 和 Claude，无需折腾配置文件。

Reddit r/ArtificialInteligence ↗ · 5天前

一个名为 relay-ai 的 CLI 工具充当 Codex Desktop 和 Claude Code 的代理，使用户能够使用自己的 API 密钥或 OAuth 订阅将请求路由到任意模型（包括 GLM 5.2），并具备防止崩溃和管理上下文溢出的功能。

0 人收藏 0 人点赞

#routing

[R] 所有路线都通向崩溃：注意力沉没、表示坍塌和范数分层——盲范数度量下基于内容的路由的后果

Reddit r/MachineLearning ↗ · 5天前缓存

本文证明，注意力沉没、表示坍塌和范数分层并非注意力机制所独有，而是基于内容的路由在盲范数相似性度量下的普遍结果，这一结论在包括Transformer、graph attention、state-space models和recurrent mixers在内的多种架构中得到了验证。

0 人收藏 0 人点赞

#routing

聚焦关键：扩散MoE中利用显著性的精准路由

Hugging Face Daily Papers ↗ · 6天前缓存

SharpMoE是一个后训练框架，通过使用干净的潜在特征识别显著令牌和轨迹路由损失来精确分配计算资源，改进扩散混合专家模型中的路由，实现了最先进的视觉生成。

0 人收藏 0 人点赞

#routing

结合语言模型何时有益？——路由、投票与多智能体混合在67个前沿模型中的共失败上限

Hugging Face Daily Papers ↗ · 6天前缓存

本文揭示了多模型LLM系统的一个基本约束：准确率受制于所有模型在同一查询上同时出错的比率。在67个前沿模型中，常见指标显著低估了全错率，从而限制了投票、路由和集成策略的收益。

0 人收藏 0 人点赞

#routing

OmniPath：用于审计轮椅无障碍性的多模态代理框架

arXiv cs.AI ↗ · 6天前缓存

OmniPath是一个多模态代理框架，结合了OpenStreetMap网络拓扑与航空LiDAR数据，通过高分辨率分析坡度、表面不连续等物理障碍来审计轮椅无障碍性，并经过实地调查验证。

0 人收藏 0 人点赞

#routing

考虑将更多流量通过英国以外的节点路由

Hacker News Top ↗ · 2026-06-21 缓存

作者对英国网络安全政策威胁言论自由和隐私表示担忧，并考虑通过英国以外的节点路由流量以规避潜在的审查。

0 人收藏 0 人点赞

#routing

ARIADNE：推理时适配器动态选择的无关路由

arXiv cs.AI ↗ · 2026-06-18 缓存

提出ARIADNE，一种无需训练、适配器无关的路由框架，通过在嵌入空间中测量输入与适配器特定质心的接近度，在推理时选择最优的PEFT适配器，在23个任务上恢复了97.44%的上限性能。

0 人收藏 0 人点赞

#routing

@jbhuang0604: Huge! It’s amazing how often Noam’s papers end up at the center of the field. In many tutorial videos I’ve made, they’v…

X AI KOLs Following ↗ · 2026-06-18 缓存

The article provides a detailed explanation of Mixture of Experts (MoE) in transformers, covering routing, load balancing, and recent innovations like fine-grained experts. It also highlights the significance of Noam Shazeer's research contributions and his move from Google to OpenAI.

0 人收藏 0 人点赞

#routing

Grouped Query Experts: GQA自注意力上的混合专家模型

Hugging Face Daily Papers ↗ · 2026-06-18 缓存

Grouped Query Experts (GQE) 通过在分组查询注意力之上应用混合专家层来提高Transformer效率，每个token有选择地激活查询头，同时保持键值缓存优势，在2.5亿参数规模下，以一半的查询头计算量达到与基线相同的准确率。

0 人收藏 0 人点赞

#routing

ChatPlanner：面向个性化公共交通路线规划的大语言模型框架

arXiv cs.AI ↗ · 2026-06-16 缓存

ChatPlanner 是一种新颖的框架，它利用经过微调的大语言模型 (LLMs) 结合检索增强生成 (RAG) 技术，从自然语言查询中解释用户偏好，并将其集成到公共交通路线规划算法中，性能优于现有的路线规划器。

0 人收藏 0 人点赞

#routing

强制延迟：在多模态LLM级联中操纵路由决策

arXiv cs.AI ↗ · 2026-06-16 缓存

本文介绍了强制延迟攻击（FDA），一种对抗性图像攻击，通过操纵多模态LLM级联中的置信度分数，导致查询不必要地路由到更强（更昂贵）的模型，从而在不降低答案正确性的情况下将计算成本转移给提供商。

0 人收藏 0 人点赞

#routing

Openrouter Fusion API

Hacker News Top ↗ · 2026-06-15 缓存

OpenRouter的Fusion API提供定价和提供商信息，用于跨多个提供商路由AI模型请求，从而实现对各种AI模型的灵活且成本效益高的访问。

0 人收藏 0 人点赞

#routing

TimeRouter：高效自适应的时间序列基础模型路由

arXiv cs.LG ↗ · 2026-06-11 缓存

TimeRouter 提出了一种高效的时间序列基础模型路由框架，利用轻量级判别路由和选择性门控，无需大型语言模型（LLM）开销即可自适应选择最佳专家模型，在 GIFT-EVAL 排行榜上达到了最先进水平。

0 人收藏 0 人点赞

#routing

INFRAMIND：基础设施感知的多智能体编排

arXiv cs.AI ↗ · 2026-06-11 缓存

InfraMind 引入了一个基础设施感知的多智能体大语言模型编排框架，利用强化学习根据实时系统负载动态选择模型和拓扑结构，在高负载下实现了高达 7 倍的延迟降低和 99.9% 的 SLO 达标率。

0 人收藏 0 人点赞

#routing

分解推理中的无政府代价

Hugging Face Daily Papers ↗ · 2026-06-11 缓存

本文对分解推理架构进行了博弈论分析，该架构将预填充和解码阶段分离到不同的 GPU 池中，揭示了 GPU 饱和如何影响性能。作者提出了一种自适应控制器，可实时检测饱和状态转换并调整路由参数，在 NVIDIA B200 集群的实验中将无政府代价显著降低。

0 人收藏 0 人点赞

#routing

混合专家语言模型中机器遗忘的路由感知专家校准

arXiv cs.CL ↗ · 2026-06-10 缓存

论文提出TRACE，一种用于混合专家语言模型中机器遗忘的方法，通过重新加权词元级保留损失来校准保留正则化，以解决遗忘-保留路由不匹配问题。实验表明，在多个MoE大语言模型上改善了遗忘-效用权衡。

0 人收藏 0 人点赞

routing

提交意见反馈