标签
一位用户使用 Gemma 4 在 llama.cpp 中针对混合 CPU-GPU 推理进行了线程数基准测试,发现在混合核心 CPU 上使用 16 个线程而非 6 个可提升 80% 的性能,并分享了最佳命令配置。
Perplexity在2026年台北国际电脑展上发布了一款混合本地-云端推理系统,该系统能智能地在设备端模型和云端模型之间路由查询,基于其早前的Personal Computer agent构建。
一位开发者在vLLM上构建了一个路由层,将简单代理步骤路由到廉价的开源MoE模型(21B活跃参数),困难步骤路由到Opus,将400步重构的成本降至15.60美元,成功率达93.4%。