标签
本文认为,唯独前沿AI模型才能用于生产的叙事是由融资需求驱动的,而非架构现实。文章指出,像Phi-4、Claude Haiku这样的小型高效模型以及RouteLLM等路由解决方案提供了经济高效的替代方案,而大多数企业因默认使用大型模型而浪费token。
本文引入了层表示动力学(LRD),这是一个包含三个测量家族的框架,用于分析语言模型中各层隐藏状态的变化。应用于30个MTEB任务上的31个模型,LRD揭示了架构差异,并实现了无标签模型选择和推理时层剪枝。
文章指出,智能体框架对性能的影响(30-50个百分点的波动)远大于模型选择本身,认为团队应关注实例级别的验证,而不仅仅盯着模型名称。
一篇教程博客文章,介绍 LLM 路由——即根据成本、延迟和质量,将用户查询定向到最合适的 LLM 的实践方法。涵盖路由策略、LLM 路由器的结构解析,以及与混合专家模型(Mixture of Experts)的对比。