标签
650多个Apache-2.0许可的生物医学NER和去标识化模型集合,通过MLX在设备端运行,在M3 Max上实现比PyTorch-CPU快30-40倍的推理速度,且输出一致。
Rapid-MLX 是一个针对苹果 M 系列芯片优化的本地大模型推理工具,基于 MLX 框架开发,推理速度比 Ollama 快 2 到 4 倍,支持多种模型、工具调用及 OpenAI API 兼容接口。
GLM 5.2 是一款与顶级闭源模型相媲美的开放权重 AI 模型,现已发布,并在两台 Mac Studio(M3 Ultra)上通过 MLX 运行。
发布了 MiniMax-M3 的 Config-I 量化版本,在 MLX 上使用 2-bit 专家和 4-bit 注意力,将 427B MoE 模型从 869GB 减少到约 167GB,但该量化版本未经测试且需要为 mlx_lm 打补丁。
react-native-executorch 库现已集成 Google 的 Gemma 4 模型,可实现完全离线的 GPU 加速推理,在 Android 上使用 Vulkan 委托,在 Apple Silicon 上使用 MLX 委托。
MLX-LoRA-Studio 是一款原生的macOS应用,用于在Apple Silicon上微调LLM,提供用户友好的界面,支持多种训练算法,包括SFT、DPO和QAT。它完全开源,允许本地私有微调,无需依赖云端。
oMLX是一款用于本地AI的MLX服务器,现在支持标准的Hugging Face缓存模型目录,简化了模型加载过程。
一条推文强调了Angelos Kath在WWDC上关于使用MLX构建本地自主AI的出色视频,指出开源权重模型和硬件能力的快速进展。
MTPLX V1是一款原生Mac应用,集成了用于MLX模型的MTP投机解码引擎,提供通过Forge进行模型转换、内置聊天、基准测试以及支持较小模型等功能。它实现了超过2倍的加速,且数学上精确无误。
Yagil Bubrovnik在WWDC上演讲,现场演示了LM Studio即将推出的聚类功能,并对MLX团队的工作表示感谢。
Cohere正式发布North Mini Code编程模型,权重可在Hugging Face上获取,并支持vLLM和MLX部署。
Three MLX videos from WWDC demonstrate running AI agents entirely locally on Apple Silicon using the MLX stack, including local inference, tool calling, and distributed inference across Macs, enabling no-cloud, offline AI workflows.
Apple MLX 团队推出 MLX LM Server,一个在 Mac 上完全本地运行 AI 智能体工作流的工具,支持连续批处理、分布式推理和 M5 神经加速,无需云端或 API 密钥。
在 Extreme Alpha RN 活动中,一位来自 Google 的特邀嘉宾将讨论下一代基础模型,另外还有 MLX 联合创始人 Awni Hannun 也将出席。
oMLX v0.4.0 搭载了原生 Swift macOS 应用,具备重新设计的引导流程、设置界面、Hugging Face 缓存发现功能,以及改进的模型管理,用于在 Mac 上运行本地 AI。
一位计算机科学学生构建了mlx-Chronos,这是一个开源命令行工具,通过测量TTFT、吞吐量、内存使用和热状态,标准化Apple Silicon上MLX推理引擎的基准测试,并提供一个社区排行榜来分享结果。
mlx-code是一个Python包,为Apple Silicon提供了一个本地优先的LLM编码代理,集成了MLX推理服务器、多协议API支持、git工作树隔离以及可组合的多智能体原语。
pibot 现已完全本地化,采用 Parakeet 进行语音转文字(STT),Qwen3-tts 进行文字转语音(TTS),并通过 llama.cpp 使用 Qwen 3.6 作为本地多模态大语言模型,推理引擎基于 Rust/mlx-c,实现了零 Python 依赖。
Mininglamp AI发布了Cider,一个在Apple的MLX框架上添加W8A8激活量化的小型SDK,通过自定义Metal内核,在M5 Pro上对大型语言模型实现预填充最高1.84倍加速。该工具可与任何MLX模型配合使用,支持M5及以上芯片的INT8 TensorOps。