@AlexJonesax: 如果你在 Mac 上运行 LLM,值得了解的两个开源 MLX 推理服务器:MTPLX (@youssofal) 利用模型自身的…

X AI KOLs Timeline 工具

摘要

本文介绍了两个适用于 Mac 的开源 MLX 推理服务器:MTPLX 通过投机解码(无需草稿模型)优化 token 生成速度,而 oMLX 则通过持久化的 KV 缓存提升代码智能体的工作流效率。

如果你在 Mac 上运行 LLM,有两个值得了解的开源 MLX 推理服务器: MTPLX (@youssofal) 利用模型自身的 MTP 头进行投机解码。无需草稿模型。在 Qwen3.6-27B (M5Max) 上可达 ~63 tok/s。支持数学上精确的采样,而不仅仅是贪婪前缀匹配。 oMLX (@jundot) 分层 KV 缓存,跨重启持久化到 SSD。对于需要反复发送相同代码库上下文的代码智能体而言,这一特性至关重要。同时支持 LLM、VLM、嵌入模型、重排序器以及音频模型。 它们解决的是不同的问题:MTPLX 最大化 tok/s,oMLX 最大化工作流效率。两者都提供兼容 OpenAI 和 Anthropic 的 API,并可直接用于 Claude Code/OpenCode/Cursor。根据任务不同,我会分别使用它们。但两者都值得尝试。
查看原文

相似文章

jundot/omlx

GitHub Trending (daily)

oMLX 是一个用于在 Apple Silicon Mac 上进行优化 LLM 推理的新开源工具,具备持续批处理和分层 KV 缓存功能,并通过菜单栏应用进行管理。

New MLX LM Server From Apple

Reddit r/LocalLLaMA

Apple MLX 团队推出 MLX LM Server,一个在 Mac 上完全本地运行 AI 智能体工作流的工具,支持连续批处理、分布式推理和 M5 神经加速,无需云端或 API 密钥。