hybrid-inference

标签

Cards List
#hybrid-inference

PSA:测试你在 llama.cpp 中的“线程”参数(我的情况提升了 80% 的性能)

Reddit r/LocalLLaMA · 3天前

一位用户使用 Gemma 4 在 llama.cpp 中针对混合 CPU-GPU 推理进行了线程数基准测试,发现在混合核心 CPU 上使用 16 个线程而非 6 个可提升 80% 的性能,并分享了最佳命令配置。

0 人收藏 0 人点赞
#hybrid-inference

数据中心移动到你的设备上(4分钟阅读)

TLDR AI · 2026-06-03

Perplexity在2026年台北国际电脑展上发布了一款混合本地-云端推理系统,该系统能智能地在设备端模型和云端模型之间路由查询,基于其早前的Personal Computer agent构建。

0 人收藏 0 人点赞
#hybrid-inference

$16重构,400步,95%路由到开源MoE

Reddit r/LocalLLaMA · 2026-05-23

一位开发者在vLLM上构建了一个路由层,将简单代理步骤路由到廉价的开源MoE模型(21B活跃参数),困难步骤路由到Opus,将400步重构的成本降至15.60美元,成功率达93.4%。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈