@AlexJonesax: 如果你在 Mac 上运行 LLM，值得了解的两个开源 MLX 推理服务器：MTPLX (@youssofal) 利用模型自身的…

X AI KOLs Timeline 2026/05/10 13:32 工具

open-source mlx macos llm-inference speculative-decoding ai-tools

摘要

本文介绍了两个适用于 Mac 的开源 MLX 推理服务器：MTPLX 通过投机解码（无需草稿模型）优化 token 生成速度，而 oMLX 则通过持久化的 KV 缓存提升代码智能体的工作流效率。

如果你在 Mac 上运行 LLM，有两个值得了解的开源 MLX 推理服务器： MTPLX (@youssofal) 利用模型自身的 MTP 头进行投机解码。无需草稿模型。在 Qwen3.6-27B (M5Max) 上可达 ~63 tok/s。支持数学上精确的采样，而不仅仅是贪婪前缀匹配。 oMLX (@jundot) 分层 KV 缓存，跨重启持久化到 SSD。对于需要反复发送相同代码库上下文的代码智能体而言，这一特性至关重要。同时支持 LLM、VLM、嵌入模型、重排序器以及音频模型。它们解决的是不同的问题：MTPLX 最大化 tok/s，oMLX 最大化工作流效率。两者都提供兼容 OpenAI 和 Anthropic 的 API，并可直接用于 Claude Code/OpenCode/Cursor。根据任务不同，我会分别使用它们。但两者都值得尝试。

查看原文

@AlexJonesax: 如果你在 Mac 上运行 LLM，值得了解的两个开源 MLX 推理服务器：MTPLX (@youssofal) 利用模型自身的…

相似文章

jundot/omlx

MTPLX V1：用于运行和创建MLX MTP模型的Swift应用（2倍TPS的Qwen 3.6 27B）

MLX引擎对比…oMLX是最佳选择。

New MLX LM Server From Apple

@jundotkim: oMLX 0.3.9rc1 发布。亮点：- 低内存Mac保持稳定，不再被系统杀死 - DFlash 升级至…

提交意见反馈