New MLX LM Server From Apple

Reddit r/LocalLLaMA 2026/06/09 00:28 产品

apple mlx mlx-lm-server local-ai mac on-device-inference open-source

摘要

Apple MLX 团队推出 MLX LM Server，一个在 Mac 上完全本地运行 AI 智能体工作流的工具，支持连续批处理、分布式推理和 M5 神经加速，无需云端或 API 密钥。

**Key Technical Advantages:** * **Performance:** The *M5* chip's neural accelerators significantly boost prompt processing * **Concurrency:** *MLX LM Server* utilizes **continuous batching** to handle multiple sub-agent requests simultaneously without stalling * **Scaling:** For massive models that exceed local memory, *MLX* supports **distributed inference** across multiple Macs using *Thunderbolt RDMA* To get started, developers can install *MLX LM* via pip and point their preferred agent tool to the local server address Pretty cool over all!

查看原文

查看缓存全文

缓存时间: 2026/06/09 08:43

TL;DR: Apple MLX 团队推出 MLX LM Server，让你在 Mac 上完全本地运行 AI 智能体工作流，支持连续批处理、分布式推理和 M5 神经加速，无需云端或 API 密钥。 ## 从聊天到智能体：本地 AI 工作流过去一年，AI 智能体从研究原型变成了日常生产力工具。传统的聊天体验里，你向模型发提示，模型返回响应，然后你需要手动执行后续操作——运行命令、检查文件、修复错误。而智能体循环改变了这一切：用户 → 智能体 → 模型 → 工具 → 结果反馈回模型，不断迭代直到任务完成。在 Apple 芯片上，这个循环可以全部在本地运行：数据留在设备上，AI 随时可用，无需使用成本。 ## 本地智能体技术栈的四层架构支撑 Mac 上本地智能体 AI 的技术栈共四层，从底层到顶层依次是： 1. **MLX** —— 专为 Apple 芯片构建的开源数组框架，处理底层计算、Metal 加速和内存管理。 2. **语言模型层 (MLX-LM)** —— 提供加载、运行、量化和微调大型语言模型所需的一切，支持 HuggingFace 上数千个模型，提供 CLI 工具和 Python API。 3. **MLX-LM Server** —— 一个兼容 OpenAI 的 HTTP 服务器，通过标准 API 暴露本地模型，支持结构化工具调用和推理模型（逐步分析复杂问题），是任何云端 LLM API 的即插即用替代品。 4. **智能体层** —— 任何支持 OpenAI 聊天补全协议的框架或工具，如 Xcode、OpenCode、Pi agent、自定义脚本等。因为 MLX-LM Server 提供标准接口，所有智能体框架都可以直接使用。许多流行的应用（Ollama、LM Studio、vLLM）也构建在 MLX 和 MLX-LM 之上，生态系统不断增长。 ## 三步设置本地智能体从零开始只需三步： 1. **安装 MLX-LM**：一条 `pip install` 命令即可。 2. **启动服务器**：运行 `mlx_lm.server`，指定一个支持工具调用的模型（建议先用小模型测试）。服务器启动后加载模型，准备好接受 localhost 请求。 3. **将智能体指向本地服务器**：在智能体框架中将基础 URL 设置为本地服务器地址（如 `http://localhost:8080`），并设置模型名称。智能体不关心模型是本地还是云端。例如，OpenCode 的配置只需定义本地提供商，设置 URL 和模型名称，然后所有交互都通过本地模型运行。 ## 硬件加速：让智能体飞起来 ### 神经加速器：提示处理快 4 倍在智能体循环中，每次模型收到工具输出，都需要先处理大量新上下文。M5 芯片的专用神经加速器使矩阵乘法比 M4 快四倍，结合 MLX 专门的乘法和注意力内核，几乎直接转化为提示处理速度的接近四倍提升。无需任何特殊参数，MLX 自动为可用硬件选择最佳内核。 ### 连续批处理：处理并发请求智能体常派生出多个子智能体并行工作（如一个读文档、一个搜代码、一个写测试）。MLX-LM Server 通过连续批处理动态将传入请求分组，在 GPU 上一起处理，新请求可加入正在进行的批次，子智能体无需排队等待，保持工作流顺畅。 ### 分布式推理：运行超大模型当模型超过本地内存（如 DeepSeek 1.6 万亿参数，需 800GB+），MLX 的分布式支持允许将模型分布到多台通过 Thunderbolt 或以太网连接的 Mac 上。这不仅可运行更大模型，还通过并行化提示处理加速智能体循环。使用 `mlx.launch` 配合节点主机文件即可设置。从 macOS 26.2 开始支持 Thunderbolt RDMA，实现低延迟高带宽通信，四个节点时提速可达三倍。 ## 现场演示：从零构建应用 + Xcode 修复 Bug ### 演示一：构建 SwiftUI 绘图应用智能体从空白 Xcode 项目开始，先查看现有结构，制定计划，编写代码，然后构建并修复错误。几分钟内创建了功能完整的绘图应用。进一步要求添加圆形端点，智能体自动编辑代码并重新编译，成功实现。 > 所有流程都在本地完成：模型通过这台 Mac 上的 MLX-LM 服务器运行，智能体使用 xcodebuild 等标准开发工具验证构建。 ### 演示二：Xcode 集成修复 Bug 在 Xcode 中设置 MLX 服务器（Settings → Intelligence → Add Chat Provider → Locally Hosted，端口 8080）。引入一个 Bug 后，模型几秒内识别出问题，检查相关代码，写出修复，然后构建运行应用。代码永远不会离开 Mac。 ## 总结今天展示了在 Mac 上本地运行智能体 AI 的完整技术栈：从 MLX 到 MLX-LM Server 再到智能体框架，以及如何利用 M5 神经加速器、连续批处理和分布式推理让一切更快。所有代码开源，即刻可获取。 Source: https://www.youtube.com/watch?v=wykPErJ8M-8

相似文章

@awnihannun: Three MLX videos dropped at WWDC: Running agents locally by @angeloskath https://youtube.com/watch?v=wykPErJ8M-8… Distr…

X AI KOLs Following

Three MLX videos from WWDC demonstrate running AI agents entirely locally on Apple Silicon using the MLX stack, including local inference, tool calling, and distributed inference across Macs, enabling no-cloud, offline AI workflows.

@QingQ77: 纯 Swift 写的 Apple Silicon LLM 推理服务器，不用 Python，低内存 Mac 也能跑大模型。 https://github.com/SharpAI/SwiftLM SwiftLM 是个 Swift 原生的推理服…

X AI KOLs Timeline

SwiftLM is a Swift-native LLM inference server for Apple Silicon that runs large models without Python, using SSD streaming to load MoE weights and enabling 122B models on 64 GB Macs.

@sitinme: 有一个挺有意思的开源项目，叫 Cider，专门给 Apple Silicon 芯片的 Mac 做本地 AI 推理加速。很多人买了 Mac mini、MacBook Pro ，想在本地跑模型，但总会出现速度不够快、内存吃得猛的情况其实 …

X AI KOLs Timeline

Cider 是一个开源项目，专为 Apple Silicon Mac 设计，通过充分利用 M 系列芯片的算力来加速本地 AI 推理，适配 MLX 生态，支持 Qwen、Llama 等模型，安装简单。

@AlexJonesax: 如果你在 Mac 上运行 LLM，值得了解的两个开源 MLX 推理服务器：MTPLX (@youssofal) 利用模型自身的…

X AI KOLs Timeline

本文介绍了两个适用于 Mac 的开源 MLX 推理服务器：MTPLX 通过投机解码（无需草稿模型）优化 token 生成速度，而 oMLX 则通过持久化的 KV 缓存提升代码智能体的工作流效率。

我为Apple Silicon打造了最快的本地AI引擎。专为代理式使用优化。

Reddit r/LocalLLaMA

作者宣布发布'lightning-mlx'，这是一个针对Apple Silicon优化的本地AI引擎，可为编码代理和工具调用工作流实现高令牌速度。

相似文章

@awnihannun: Three MLX videos dropped at WWDC: Running agents locally by @angeloskath https://youtube.com/watch?v=wykPErJ8M-8… Distr…

@QingQ77: 纯 Swift 写的 Apple Silicon LLM 推理服务器，不用 Python，低内存 Mac 也能跑大模型。 https://github.com/SharpAI/SwiftLM SwiftLM 是个 Swift 原生的推理服…

@sitinme: 有一个挺有意思的开源项目，叫 Cider，专门给 Apple Silicon 芯片的 Mac 做本地 AI 推理加速。 很多人买了 Mac mini、MacBook Pro ，想在本地跑模型，但总会出现速度不够快、内存吃得猛的情况 其实 …

@AlexJonesax: 如果你在 Mac 上运行 LLM，值得了解的两个开源 MLX 推理服务器：MTPLX (@youssofal) 利用模型自身的…

我为Apple Silicon打造了最快的本地AI引擎。专为代理式使用优化。

提交意见反馈

@sitinme: 有一个挺有意思的开源项目，叫 Cider，专门给 Apple Silicon 芯片的 Mac 做本地 AI 推理加速。很多人买了 Mac mini、MacBook Pro ，想在本地跑模型，但总会出现速度不够快、内存吃得猛的情况其实 …