@AlexJonesax: 如果你在 Mac 上运行 LLM,值得了解的两个开源 MLX 推理服务器:MTPLX (@youssofal) 利用模型自身的…
摘要
本文介绍了两个适用于 Mac 的开源 MLX 推理服务器:MTPLX 通过投机解码(无需草稿模型)优化 token 生成速度,而 oMLX 则通过持久化的 KV 缓存提升代码智能体的工作流效率。
如果你在 Mac 上运行 LLM,有两个值得了解的开源 MLX 推理服务器:
MTPLX (@youssofal)
利用模型自身的 MTP 头进行投机解码。无需草稿模型。在 Qwen3.6-27B (M5Max) 上可达 ~63 tok/s。支持数学上精确的采样,而不仅仅是贪婪前缀匹配。
oMLX (@jundot)
分层 KV 缓存,跨重启持久化到 SSD。对于需要反复发送相同代码库上下文的代码智能体而言,这一特性至关重要。同时支持 LLM、VLM、嵌入模型、重排序器以及音频模型。
它们解决的是不同的问题:MTPLX 最大化 tok/s,oMLX 最大化工作流效率。两者都提供兼容 OpenAI 和 Anthropic 的 API,并可直接用于 Claude Code/OpenCode/Cursor。根据任务不同,我会分别使用它们。但两者都值得尝试。
相似文章
jundot/omlx
oMLX 是一个用于在 Apple Silicon Mac 上进行优化 LLM 推理的新开源工具,具备持续批处理和分层 KV 缓存功能,并通过菜单栏应用进行管理。
MTPLX V1:用于运行和创建MLX MTP模型的Swift应用(2倍TPS的Qwen 3.6 27B)
MTPLX V1是一款原生Mac应用,集成了用于MLX模型的MTP投机解码引擎,提供通过Forge进行模型转换、内置聊天、基准测试以及支持较小模型等功能。它实现了超过2倍的加速,且数学上精确无误。
MLX引擎对比…oMLX是最佳选择。
一篇博客文章,对比了MLX推理引擎,结论是oMLX是最佳选择,评测在M5 Max 64GB上使用Qwen3.6-35B-A3B-4bit。
New MLX LM Server From Apple
Apple MLX 团队推出 MLX LM Server,一个在 Mac 上完全本地运行 AI 智能体工作流的工具,支持连续批处理、分布式推理和 M5 神经加速,无需云端或 API 密钥。
@jundotkim: oMLX 0.3.9rc1 发布。亮点:- 低内存Mac保持稳定,不再被系统杀死 - DFlash 升级至…
oMLX 0.3.9rc1,一个为Apple Silicon Mac优化的LLM推理服务器,增加了低内存稳定性、分块预填充、多任务管理聊天等功能。