hybrid-inference

#hybrid-inference

PSA：测试你在 llama.cpp 中的“线程”参数（我的情况提升了 80% 的性能）

Reddit r/LocalLLaMA ↗ · 3天前

一位用户使用 Gemma 4 在 llama.cpp 中针对混合 CPU-GPU 推理进行了线程数基准测试，发现在混合核心 CPU 上使用 16 个线程而非 6 个可提升 80% 的性能，并分享了最佳命令配置。

0 人收藏 0 人点赞

#hybrid-inference

TLDR AI ↗ · 2026-06-03

Perplexity在2026年台北国际电脑展上发布了一款混合本地-云端推理系统，该系统能智能地在设备端模型和云端模型之间路由查询，基于其早前的Personal Computer agent构建。

0 人收藏 0 人点赞

#hybrid-inference

Reddit r/LocalLLaMA ↗ · 2026-05-23

一位开发者在vLLM上构建了一个路由层，将简单代理步骤路由到廉价的开源MoE模型（21B活跃参数），困难步骤路由到Opus，将400步重构的成本降至15.60美元，成功率达93.4%。

0 人收藏 0 人点赞