标签
Clement Delangue 强调了 vLLM 的新语义路由器,这是一个开源系统,用于将LLM查询路由到最合适的模型,旨在将价值从昂贵的前沿模型转移到多样化的开源模型生态系统。
Cognition 推出了 Devin Fusion,一种多模型管理系统,采用“副手”架构在前沿模型与高性价比模型之间动态分配任务,在 FrontierCode 基准测试中实现了前沿性能,同时成本降低 35%。
作者批评了在LLM使用中追求token最大化的趋势,并主张通过优化和路由转向代币回报(ROT),以实现可持续的AI部署。
这篇文章认为,AI代理架构应从持有全部上下文的单体代理转向一种路由模型,即代理将任务委托给专业化服务,类似于软件从单体架构演进到微服务的方式。
一个名为 relay-ai 的 CLI 工具充当 Codex Desktop 和 Claude Code 的代理,使用户能够使用自己的 API 密钥或 OAuth 订阅将请求路由到任意模型(包括 GLM 5.2),并具备防止崩溃和管理上下文溢出的功能。
本文证明,注意力沉没、表示坍塌和范数分层并非注意力机制所独有,而是基于内容的路由在盲范数相似性度量下的普遍结果,这一结论在包括Transformer、graph attention、state-space models和recurrent mixers在内的多种架构中得到了验证。
SharpMoE是一个后训练框架,通过使用干净的潜在特征识别显著令牌和轨迹路由损失来精确分配计算资源,改进扩散混合专家模型中的路由,实现了最先进的视觉生成。
本文揭示了多模型LLM系统的一个基本约束:准确率受制于所有模型在同一查询上同时出错的比率。在67个前沿模型中,常见指标显著低估了全错率,从而限制了投票、路由和集成策略的收益。
OmniPath是一个多模态代理框架,结合了OpenStreetMap网络拓扑与航空LiDAR数据,通过高分辨率分析坡度、表面不连续等物理障碍来审计轮椅无障碍性,并经过实地调查验证。
提出ARIADNE,一种无需训练、适配器无关的路由框架,通过在嵌入空间中测量输入与适配器特定质心的接近度,在推理时选择最优的PEFT适配器,在23个任务上恢复了97.44%的上限性能。
The article provides a detailed explanation of Mixture of Experts (MoE) in transformers, covering routing, load balancing, and recent innovations like fine-grained experts. It also highlights the significance of Noam Shazeer's research contributions and his move from Google to OpenAI.
Grouped Query Experts (GQE) 通过在分组查询注意力之上应用混合专家层来提高Transformer效率,每个token有选择地激活查询头,同时保持键值缓存优势,在2.5亿参数规模下,以一半的查询头计算量达到与基线相同的准确率。
ChatPlanner 是一种新颖的框架,它利用经过微调的大语言模型 (LLMs) 结合检索增强生成 (RAG) 技术,从自然语言查询中解释用户偏好,并将其集成到公共交通路线规划算法中,性能优于现有的路线规划器。
本文介绍了强制延迟攻击(FDA),一种对抗性图像攻击,通过操纵多模态LLM级联中的置信度分数,导致查询不必要地路由到更强(更昂贵)的模型,从而在不降低答案正确性的情况下将计算成本转移给提供商。
OpenRouter的Fusion API提供定价和提供商信息,用于跨多个提供商路由AI模型请求,从而实现对各种AI模型的灵活且成本效益高的访问。
TimeRouter 提出了一种高效的时间序列基础模型路由框架,利用轻量级判别路由和选择性门控,无需大型语言模型(LLM)开销即可自适应选择最佳专家模型,在 GIFT-EVAL 排行榜上达到了最先进水平。
InfraMind 引入了一个基础设施感知的多智能体大语言模型编排框架,利用强化学习根据实时系统负载动态选择模型和拓扑结构,在高负载下实现了高达 7 倍的延迟降低和 99.9% 的 SLO 达标率。
本文对分解推理架构进行了博弈论分析,该架构将预填充和解码阶段分离到不同的 GPU 池中,揭示了 GPU 饱和如何影响性能。作者提出了一种自适应控制器,可实时检测饱和状态转换并调整路由参数,在 NVIDIA B200 集群的实验中将无政府代价显著降低。
论文提出TRACE,一种用于混合专家语言模型中机器遗忘的方法,通过重新加权词元级保留损失来校准保留正则化,以解决遗忘-保留路由不匹配问题。实验表明,在多个MoE大语言模型上改善了遗忘-效用权衡。