New MLX LM Server From Apple

Reddit r/LocalLLaMA 产品

摘要

Apple MLX 团队推出 MLX LM Server,一个在 Mac 上完全本地运行 AI 智能体工作流的工具,支持连续批处理、分布式推理和 M5 神经加速,无需云端或 API 密钥。

**Key Technical Advantages:** * **Performance:** The *M5* chip's neural accelerators significantly boost prompt processing * **Concurrency:** *MLX LM Server* utilizes **continuous batching** to handle multiple sub-agent requests simultaneously without stalling * **Scaling:** For massive models that exceed local memory, *MLX* supports **distributed inference** across multiple Macs using *Thunderbolt RDMA* To get started, developers can install *MLX LM* via pip and point their preferred agent tool to the local server address Pretty cool over all!
查看原文
查看缓存全文

缓存时间: 2026/06/09 08:43

TL;DR: Apple MLX 团队推出 MLX LM Server,让你在 Mac 上完全本地运行 AI 智能体工作流,支持连续批处理、分布式推理和 M5 神经加速,无需云端或 API 密钥。 ## 从聊天到智能体:本地 AI 工作流 过去一年,AI 智能体从研究原型变成了日常生产力工具。传统的聊天体验里,你向模型发提示,模型返回响应,然后你需要手动执行后续操作——运行命令、检查文件、修复错误。而智能体循环改变了这一切:用户 → 智能体 → 模型 → 工具 → 结果反馈回模型,不断迭代直到任务完成。 在 Apple 芯片上,这个循环可以全部在本地运行:数据留在设备上,AI 随时可用,无需使用成本。 ## 本地智能体技术栈的四层架构 支撑 Mac 上本地智能体 AI 的技术栈共四层,从底层到顶层依次是: 1. **MLX** —— 专为 Apple 芯片构建的开源数组框架,处理底层计算、Metal 加速和内存管理。 2. **语言模型层 (MLX-LM)** —— 提供加载、运行、量化和微调大型语言模型所需的一切,支持 HuggingFace 上数千个模型,提供 CLI 工具和 Python API。 3. **MLX-LM Server** —— 一个兼容 OpenAI 的 HTTP 服务器,通过标准 API 暴露本地模型,支持结构化工具调用和推理模型(逐步分析复杂问题),是任何云端 LLM API 的即插即用替代品。 4. **智能体层** —— 任何支持 OpenAI 聊天补全协议的框架或工具,如 Xcode、OpenCode、Pi agent、自定义脚本等。因为 MLX-LM Server 提供标准接口,所有智能体框架都可以直接使用。 许多流行的应用(Ollama、LM Studio、vLLM)也构建在 MLX 和 MLX-LM 之上,生态系统不断增长。 ## 三步设置本地智能体 从零开始只需三步: 1. **安装 MLX-LM**:一条 `pip install` 命令即可。 2. **启动服务器**:运行 `mlx_lm.server`,指定一个支持工具调用的模型(建议先用小模型测试)。服务器启动后加载模型,准备好接受 localhost 请求。 3. **将智能体指向本地服务器**:在智能体框架中将基础 URL 设置为本地服务器地址(如 `http://localhost:8080`),并设置模型名称。智能体不关心模型是本地还是云端。 例如,OpenCode 的配置只需定义本地提供商,设置 URL 和模型名称,然后所有交互都通过本地模型运行。 ## 硬件加速:让智能体飞起来 ### 神经加速器:提示处理快 4 倍 在智能体循环中,每次模型收到工具输出,都需要先处理大量新上下文。M5 芯片的专用神经加速器使矩阵乘法比 M4 快四倍,结合 MLX 专门的乘法和注意力内核,几乎直接转化为提示处理速度的接近四倍提升。无需任何特殊参数,MLX 自动为可用硬件选择最佳内核。 ### 连续批处理:处理并发请求 智能体常派生出多个子智能体并行工作(如一个读文档、一个搜代码、一个写测试)。MLX-LM Server 通过连续批处理动态将传入请求分组,在 GPU 上一起处理,新请求可加入正在进行的批次,子智能体无需排队等待,保持工作流顺畅。 ### 分布式推理:运行超大模型 当模型超过本地内存(如 DeepSeek 1.6 万亿参数,需 800GB+),MLX 的分布式支持允许将模型分布到多台通过 Thunderbolt 或以太网连接的 Mac 上。这不仅可运行更大模型,还通过并行化提示处理加速智能体循环。使用 `mlx.launch` 配合节点主机文件即可设置。从 macOS 26.2 开始支持 Thunderbolt RDMA,实现低延迟高带宽通信,四个节点时提速可达三倍。 ## 现场演示:从零构建应用 + Xcode 修复 Bug ### 演示一:构建 SwiftUI 绘图应用 智能体从空白 Xcode 项目开始,先查看现有结构,制定计划,编写代码,然后构建并修复错误。几分钟内创建了功能完整的绘图应用。进一步要求添加圆形端点,智能体自动编辑代码并重新编译,成功实现。 > 所有流程都在本地完成:模型通过这台 Mac 上的 MLX-LM 服务器运行,智能体使用 xcodebuild 等标准开发工具验证构建。 ### 演示二:Xcode 集成修复 Bug 在 Xcode 中设置 MLX 服务器(Settings → Intelligence → Add Chat Provider → Locally Hosted,端口 8080)。引入一个 Bug 后,模型几秒内识别出问题,检查相关代码,写出修复,然后构建运行应用。代码永远不会离开 Mac。 ## 总结 今天展示了在 Mac 上本地运行智能体 AI 的完整技术栈:从 MLX 到 MLX-LM Server 再到智能体框架,以及如何利用 M5 神经加速器、连续批处理和分布式推理让一切更快。所有代码开源,即刻可获取。 Source: https://www.youtube.com/watch?v=wykPErJ8M-8

相似文章