routing

#routing

混合专家语言模型中机器遗忘的路由感知专家校准

arXiv cs.CL ↗ · 2026-06-10 缓存

论文提出TRACE，一种用于混合专家语言模型中机器遗忘的方法，通过重新加权词元级保留损失来校准保留正则化，以解决遗忘-保留路由不匹配问题。实验表明，在多个MoE大语言模型上改善了遗忘-效用权衡。

0 人收藏 0 人点赞

#routing

何时深度思考：面向LLM推理的抑制性深思

arXiv cs.CL ↗ · 2026-06-08 缓存

IDPR是一个用于响应条件抑制性深思的框架，它首先生成快速的直观答案，然后使用一个抑制控制器来决定是否调用慢速推理，在保持准确性的同时实现效率提升。

0 人收藏 0 人点赞

#routing

Chiaroscuro Attention：在黑暗中运用计算

Hugging Face Daily Papers ↗ · 2026-06-06 缓存

CHIAR-Former使用基于谱熵的路由，动态选择DCT、RBF和自注意力算子，在大规模文本数据集上实现了效率提升，同时通过混合注意力机制保持性能。

0 人收藏 0 人点赞

#routing

@ClementDelangue：路由和后训练开源模型不仅能让你的系统更准确，还能显著提升速度并降低成本……

X AI KOLs Following ↗ · 2026-06-03 缓存

讨论路由和后训练开源模型如何在准确性、速度和成本上超越前沿模型。Harvey与Fireworks AI的合作表明，混合法律代理在质量和成本上均优于前沿模型。

0 人收藏 0 人点赞

#routing

在智能体栈中，您会将哪一类失败优先路由到 Ring：工具选择错误、重新规划错误还是最终答案验证？

Reddit r/AI_Agents ↗ · 2026-05-31

关于将失败类别（工具选择错误、重新规划错误、最终答案验证）路由到 Ring-2.6-1T 的讨论，Ring-2.6-1T 是一个用于智能体工作流的万亿参数推理模型，具有高推理努力模式。

0 人收藏 0 人点赞

#routing

Puppetmaster 将任意平台的 token 成本最多降低 98%

Reddit r/AI_Agents ↗ · 2026-05-31

Puppetmaster 是一个开源超级编排器，可根据复杂度路由 AI 模型任务，声称通过利用持久状态架构并在查询中途切换免费层提供商，实现高达 98% 的成本降低。

0 人收藏 0 人点赞

#routing

Vidai Community 现已推出：一个 Rust 二进制文件，用于每次 LLM 调用的成本归属、护栏和多提供商路由

Reddit r/LocalLLaMA ↗ · 2026-05-30

Vidai Community 是一个免费、可自托管的 Rust 二进制文件，通过一行集成和极低开销，为 LLM 调用提供成本归属、护栏和多提供商路由。

0 人收藏 0 人点赞

#routing

置信自适应SwiGLU用于混合专家模型

Hugging Face Daily Papers ↗ · 2026-05-30 缓存

提出了一种置信感知的SwiGLU（κ-SwiGLU），它根据token级路由置信度调整混合专家模型中专家门控的锐度，以最小的计算开销提升了性能。

0 人收藏 0 人点赞

#routing

Cactus Hybrid Router：通过将15-55%的任务路由到Gemini，其余在本地运行，Gemma4-2B可与Gemini-3.1-Flash-Lite匹敌。

Reddit r/LocalLLaMA ↗ · 2026-05-26

Cactus Hybrid Router是一个65k参数的模型，它动态地在本地边缘模型（如Gemma4-2B）和前沿云模型（如Gemini-3.1-Flash-Lite）之间路由任务，以优化成本和性能，具有可调节的边缘-云比例，并支持文本、视觉和音频提示。

1 人收藏 1 人点赞

#routing

𝐃𝐞𝐥𝐭𝐚 𝐀𝐭𝐭𝐞𝐧𝐭𝐢𝐨𝐧 𝐑𝐞𝐬𝐢𝐝𝐮𝐚𝐥𝐬 [R]

Reddit r/MachineLearning ↗ · 2026-05-25

Delta Attention Residuals 是一种对残差连接的即插即用升级，它通过增量（deltas）而非累积隐藏状态进行路由，实现更清晰的跨层路由，在高达 7.6B 参数规模下将困惑度降低 1.7-8.2%，并支持以几乎为零的开销微调预训练模型（如 Qwen3-0.6B）。

0 人收藏 0 人点赞

#routing

@Aurimas_Gr: 作为AI工程师，你必须了解这些𝗔𝗴𝗲𝗻𝘁𝗶𝗰 𝗦𝘆𝘀𝘁𝗲𝗺 𝗪𝗼𝗿𝗸𝗳𝗹𝗼𝘄 𝗣𝗮𝘁𝘁𝗲𝗿𝗻𝘀。如果你……

X AI KOLs Timeline ↗ · 2026-05-25 缓存

文章描述了在企业环境中构建代理式AI系统的五种关键工作流模式，由Anthropic总结：提示链、路由、并行化、编排器以及评估器-优化器，并建议在使用完整Agent之前优先采用更简单的工作流。

0 人收藏 0 人点赞

#routing

Nix 的 Substituter 列表不是路由表

Lobsters Hottest ↗ · 2026-05-25 缓存

一篇博客文章，解释了 Nix 的序列化二进制缓存查找的性能限制，并介绍了 ncro，一个用 Rust 编写的小型代理，它通过并行竞争上游缓存来减少延迟。

0 人收藏 0 人点赞

#routing

通过分片扩展 Akvorado BMP 路由信息库

Lobsters Hottest ↗ · 2026-05-25 缓存

本文介绍网络流量分析工具 Akvorado 如何通过实现分片来扩展其 BMP 路由信息库（RIB），以处理数千万条路由，并提升并发更新性能。

0 人收藏 0 人点赞

#routing

ModeSwitch-LLM：一种轻量级阶段感知控制器，用于单GPU上的跨模式大语言模型推理

arXiv cs.LG ↗ · 2026-05-25 缓存

ModeSwitch-LLM 是一种轻量级控制器，将大语言模型推理请求路由到单GPU上合适的固定模式（例如FP16、量化、推测解码），在无需重新训练模型的情况下，实现高达2.10倍的延迟加速和51.7%的能耗降低。

0 人收藏 0 人点赞

#routing

BOHM：复合AI系统的零成本层次归因方法

arXiv cs.AI ↗ · 2026-05-25 缓存

介绍BOHM，一种针对复合AI系统的零成本层次归因方法，从路由权重中提取归因，在许多实际部署中优于基于Shapley的方法。

0 人收藏 0 人点赞

#routing

Mix-MoE：通过混合专家混合提升大语言模型的多语言机器翻译

Hugging Face Daily Papers ↗ · 2026-05-23 缓存

Mix-MoE提出了一种混合专家混合框架，通过专门的专家组和傅里叶变换增强的路由机制来缓解多语言机器翻译中的参数干扰，相比基线方法取得了显著改进。

0 人收藏 0 人点赞

#routing

注意力的路由与过滤结构

arXiv cs.LG ↗ · 2026-05-20

本文将注意力交互矩阵分解为路由（反对称）和过滤（对称）两个组成部分，并引入 S-D 注意力以解耦它们。揭示了路由中的谱级联现象，可预测注意力简化的位置，从而在极小困惑度损失下实现显著的参数减少。

0 人收藏 0 人点赞

#routing

DecisionBench：面向长周期智能体工作流中涌现式委托的基准测试

arXiv cs.AI ↗ · 2026-05-20 缓存

DecisionBench 提出了一个标准化基准，用于评估长周期多智能体工作流中的涌现式委托，提供了包含任务套件、同行模型和多维度指标的底层架构，以隔离编排能力。

0 人收藏 0 人点赞

#routing

LLM智能体系统中技能的规模化定律

arXiv cs.CL ↗ · 2026-05-19 缓存

本文识别了LLM智能体系统中技能库的两个耦合规模化定律：路由准确率随库大小呈对数衰减，执行动态表现出救援效应。这些定律在15个模型和超过百万次决策中得到验证，且定律指导的优化显著提升了性能。

0 人收藏 0 人点赞

#routing

拒绝层是否会掩盖 MoE 模型中方言条件化的安全失效 [d]

Reddit r/MachineLearning ↗ · 2026-05-18

对 Qwen3.5-35B-A3B 的测试表明，使用 AAVE 编码的提示会导致 MoE 模型做出不同响应，拒绝层掩盖了方言条件化的安全失效，当拒绝被削弱时，这些失效变得可见。

0 人收藏 0 人点赞

routing

提交意见反馈