标签
论文提出TRACE,一种用于混合专家语言模型中机器遗忘的方法,通过重新加权词元级保留损失来校准保留正则化,以解决遗忘-保留路由不匹配问题。实验表明,在多个MoE大语言模型上改善了遗忘-效用权衡。
IDPR是一个用于响应条件抑制性深思的框架,它首先生成快速的直观答案,然后使用一个抑制控制器来决定是否调用慢速推理,在保持准确性的同时实现效率提升。
CHIAR-Former使用基于谱熵的路由,动态选择DCT、RBF和自注意力算子,在大规模文本数据集上实现了效率提升,同时通过混合注意力机制保持性能。
讨论路由和后训练开源模型如何在准确性、速度和成本上超越前沿模型。Harvey与Fireworks AI的合作表明,混合法律代理在质量和成本上均优于前沿模型。
关于将失败类别(工具选择错误、重新规划错误、最终答案验证)路由到 Ring-2.6-1T 的讨论,Ring-2.6-1T 是一个用于智能体工作流的万亿参数推理模型,具有高推理努力模式。
Puppetmaster 是一个开源超级编排器,可根据复杂度路由 AI 模型任务,声称通过利用持久状态架构并在查询中途切换免费层提供商,实现高达 98% 的成本降低。
Vidai Community 是一个免费、可自托管的 Rust 二进制文件,通过一行集成和极低开销,为 LLM 调用提供成本归属、护栏和多提供商路由。
提出了一种置信感知的SwiGLU(κ-SwiGLU),它根据token级路由置信度调整混合专家模型中专家门控的锐度,以最小的计算开销提升了性能。
Cactus Hybrid Router是一个65k参数的模型,它动态地在本地边缘模型(如Gemma4-2B)和前沿云模型(如Gemini-3.1-Flash-Lite)之间路由任务,以优化成本和性能,具有可调节的边缘-云比例,并支持文本、视觉和音频提示。
Delta Attention Residuals 是一种对残差连接的即插即用升级,它通过增量(deltas)而非累积隐藏状态进行路由,实现更清晰的跨层路由,在高达 7.6B 参数规模下将困惑度降低 1.7-8.2%,并支持以几乎为零的开销微调预训练模型(如 Qwen3-0.6B)。
文章描述了在企业环境中构建代理式AI系统的五种关键工作流模式,由Anthropic总结:提示链、路由、并行化、编排器以及评估器-优化器,并建议在使用完整Agent之前优先采用更简单的工作流。
一篇博客文章,解释了 Nix 的序列化二进制缓存查找的性能限制,并介绍了 ncro,一个用 Rust 编写的小型代理,它通过并行竞争上游缓存来减少延迟。
本文介绍网络流量分析工具 Akvorado 如何通过实现分片来扩展其 BMP 路由信息库(RIB),以处理数千万条路由,并提升并发更新性能。
ModeSwitch-LLM 是一种轻量级控制器,将大语言模型推理请求路由到单GPU上合适的固定模式(例如FP16、量化、推测解码),在无需重新训练模型的情况下,实现高达2.10倍的延迟加速和51.7%的能耗降低。
介绍BOHM,一种针对复合AI系统的零成本层次归因方法,从路由权重中提取归因,在许多实际部署中优于基于Shapley的方法。
Mix-MoE提出了一种混合专家混合框架,通过专门的专家组和傅里叶变换增强的路由机制来缓解多语言机器翻译中的参数干扰,相比基线方法取得了显著改进。
本文将注意力交互矩阵分解为路由(反对称)和过滤(对称)两个组成部分,并引入 S-D 注意力以解耦它们。揭示了路由中的谱级联现象,可预测注意力简化的位置,从而在极小困惑度损失下实现显著的参数减少。
DecisionBench 提出了一个标准化基准,用于评估长周期多智能体工作流中的涌现式委托,提供了包含任务套件、同行模型和多维度指标的底层架构,以隔离编排能力。
本文识别了LLM智能体系统中技能库的两个耦合规模化定律:路由准确率随库大小呈对数衰减,执行动态表现出救援效应。这些定律在15个模型和超过百万次决策中得到验证,且定律指导的优化显著提升了性能。
对 Qwen3.5-35B-A3B 的测试表明,使用 AAVE 编码的提示会导致 MoE 模型做出不同响应,拒绝层掩盖了方言条件化的安全失效,当拒绝被削弱时,这些失效变得可见。