mlx

#mlx

从零开始使用MLX构建大语言模型

Reddit r/LocalLLaMA ↗ · 21小时前

一份关于使用Apple的MLX框架从零开始构建大语言模型的指南。

0 人收藏 0 人点赞

#mlx

650多个Apache-2.0许可的生物医学NER/去标识化模型，在MLX中设备端运行。相同fp32权重，输出一致：临床NER模型在3年前的M3 Max上比PyTorch-CPU快30-40倍。内部可复现。

Reddit r/LocalLLaMA ↗ · 昨天

650多个Apache-2.0许可的生物医学NER和去标识化模型集合，通过MLX在设备端运行，在M3 Max上实现比PyTorch-CPU快30-40倍的推理速度，且输出一致。

0 人收藏 0 人点赞

#mlx

@cevenif: 用苹果电脑跑本地大模型的朋友，有个工具值得盯上——Rapid-MLX。它在 M 系列芯片上的推理速度比 Ollama 快 2 到 4 倍，因为它是直接基于苹果的 MLX 框架开发的，对芯片架构的压榨更彻底。几个关键点： KV 缓存裁剪加…

X AI KOLs Timeline ↗ · 2026-06-18 缓存

Rapid-MLX 是一个针对苹果 M 系列芯片优化的本地大模型推理工具，基于 MLX 框架开发，推理速度比 Ollama 快 2 到 4 倍，支持多种模型、工具调用及 OpenAI API 兼容接口。

0 人收藏 0 人点赞

#mlx

@pcuenq：GLM 5.2 刚刚发布，现在已经在两台 Mac Studio（M3 Ultra）上通过 MLX 运行。这相当于……

X AI KOLs Timeline ↗ · 2026-06-16 缓存

GLM 5.2 是一款与顶级闭源模型相媲美的开放权重 AI 模型，现已发布，并在两台 Mac Studio（M3 Ultra）上通过 MLX 运行。

0 人收藏 0 人点赞

#mlx

@no_stp_on_snek: MiniMax-M3 的 Config-I 量化版本已发布在 MLX 上。2-bit 专家、4-bit 注意力、8-bit 边界与嵌入、f16 路由器。约…

X AI KOLs Following ↗ · 2026-06-16 缓存

发布了 MiniMax-M3 的 Config-I 量化版本，在 MLX 上使用 2-bit 专家和 4-bit 注意力，将 427B MoE 模型从 869GB 减少到约 167GB，但该量化版本未经测试且需要为 mlx_lm 打补丁。

0 人收藏 0 人点赞

#mlx

React Native ExecuTorch 现已支持 Gemma 4（Vulkan 和 MLX 加速）

Reddit r/LocalLLaMA ↗ · 2026-06-15

react-native-executorch 库现已集成 Google 的 Gemma 4 模型，可实现完全离线的 GPU 加速推理，在 Android 上使用 Vulkan 委托，在 Apple Silicon 上使用 MLX 委托。

0 人收藏 0 人点赞

#mlx

@ActuallyIsaak：这是一个实际运行的端到端过程，从训练到在LM Studio中使用训练好的LLM，由@lmstudio的MLX-LoRA-Studio提供

X AI KOLs Following ↗ · 2026-06-14 缓存

MLX-LoRA-Studio 是一款原生的macOS应用，用于在Apple Silicon上微调LLM，提供用户友好的界面，支持多种训练算法，包括SFT、DPO和QAT。它完全开源，允许本地私有微调，无需依赖云端。

0 人收藏 0 人点赞

#mlx

@julien_c：这是个好消息：由@jundotkim开发的oMLX现在支持标准的HF缓存模型目录。为本地AI打造的优秀MLX服务器…

X AI KOLs Following ↗ · 2026-06-12 缓存

oMLX是一款用于本地AI的MLX服务器，现在支持标准的Hugging Face缓存模型目录，简化了模型加载过程。

0 人收藏 0 人点赞

#mlx

@awnihannun: @angeloskath 关于使用MLX构建本地自主AI的视频非常出色。我还听说这是观看次数最多的视频之一……

X AI KOLs Following ↗ · 2026-06-12 缓存

一条推文强调了Angelos Kath在WWDC上关于使用MLX构建本地自主AI的出色视频，指出开源权重模型和硬件能力的快速进展。

0 人收藏 0 人点赞

#mlx

MTPLX V1：用于运行和创建MLX MTP模型的Swift应用（2倍TPS的Qwen 3.6 27B）

Reddit r/LocalLLaMA ↗ · 2026-06-12

MTPLX V1是一款原生Mac应用，集成了用于MLX模型的MTP投机解码引擎，提供通过Forge进行模型转换、内置聊天、基准测试以及支持较小模型等功能。它实现了超过2倍的加速，且数学上精确无误。

0 人收藏 0 人点赞

#mlx

@yagilb: 我今年有幸在WWDC上演讲，在舞台上现场演示@lmstudio即将推出的聚类功能…

X AI KOLs Following ↗ · 2026-06-10 缓存

Yagil Bubrovnik在WWDC上演讲，现场演示了LM Studio即将推出的聚类功能，并对MLX团队的工作表示感谢。

0 人收藏 0 人点赞

#mlx

发布 Cohere North Mini Code

Reddit r/LocalLLaMA ↗ · 2026-06-09

Cohere正式发布North Mini Code编程模型，权重可在Hugging Face上获取，并支持vLLM和MLX部署。

0 人收藏 0 人点赞

#mlx

@awnihannun: Three MLX videos dropped at WWDC: Running agents locally by @angeloskath https://youtube.com/watch?v=wykPErJ8M-8… Distr…

X AI KOLs Following ↗ · 2026-06-09 缓存

Three MLX videos from WWDC demonstrate running AI agents entirely locally on Apple Silicon using the MLX stack, including local inference, tool calling, and distributed inference across Macs, enabling no-cloud, offline AI workflows.

0 人收藏 0 人点赞

#mlx

New MLX LM Server From Apple

Reddit r/LocalLLaMA ↗ · 2026-06-09 缓存

Apple MLX 团队推出 MLX LM Server，一个在 Mac 上完全本地运行 AI 智能体工作流的工具，支持连续批处理、分布式推理和 M5 神经加速，无需云端或 API 密钥。

0 人收藏 0 人点赞

#mlx

@RayFernando1337: Extreme Alpha RN: 我们为活动邀请了一位来自 Google 的特邀嘉宾，来聊聊下一代基础模型。另外还有…

X AI KOLs Following ↗ · 2026-06-08 缓存

在 Extreme Alpha RN 活动中，一位来自 Google 的特邀嘉宾将讨论下一代基础模型，另外还有 MLX 联合创始人 Awni Hannun 也将出席。

0 人收藏 0 人点赞

#mlx

@jundotkim：我刚发布了 oMLX v0.4.0，这是首个搭载全新原生 Swift macOS 应用的正式版本。

X AI KOLs Timeline ↗ · 2026-06-02 缓存

oMLX v0.4.0 搭载了原生 Swift macOS 应用，具备重新设计的引导流程、设置界面、Hugging Face 缓存发现功能，以及改进的模型管理，用于在 Mac 上运行本地 AI。

0 人收藏 0 人点赞

#mlx

我构建了mlx-Chronos——一个面向Apple Silicon上本地LLM引擎的社区基准测试排行榜（oMLX、Rapid-MLX、mlx-lm、Ollama）

Reddit r/LocalLLaMA ↗ · 2026-05-31

一位计算机科学学生构建了mlx-Chronos，这是一个开源命令行工具，通过测量TTFT、吞吐量、内存使用和热状态，标准化Apple Silicon上MLX推理引擎的基准测试，并提供一个社区排行榜来分享结果。

0 人收藏 0 人点赞

#mlx

mlx-code — 用于Apple Silicon的本地LLM编码代理

Reddit r/artificial ↗ · 2026-05-31 缓存

mlx-code是一个Python包，为Apple Silicon提供了一个本地优先的LLM编码代理，集成了MLX推理服务器、多协议API支持、git工作树隔离以及可组合的多智能体原语。

0 人收藏 0 人点赞

#mlx

@badlogicgames：pibot 现在完全本地运行，使用 parakeet 进行语音转文字（STT），qwen3-tts 进行文字转语音（TTS），以及 Qwen 3.6 作为本地的多模态大语言模型……

X AI KOLs Following ↗ · 2026-05-29 缓存

pibot 现已完全本地化，采用 Parakeet 进行语音转文字（STT），Qwen3-tts 进行文字转语音（TTS），并通过 llama.cpp 使用 Qwen 3.6 作为本地多模态大语言模型，推理引擎基于 Rust/mlx-c，实现了零 Python 依赖。

0 人收藏 0 人点赞

#mlx

我们为MLX添加了W8A8激活量化——在M5 Pro上预填充从2.84s降至2.52s

Reddit r/LocalLLaMA ↗ · 2026-05-25

Mininglamp AI发布了Cider，一个在Apple的MLX框架上添加W8A8激活量化的小型SDK，通过自定义Metal内核，在M5 Pro上对大型语言模型实现预填充最高1.84倍加速。该工具可与任何MLX模型配合使用，支持M5及以上芯片的INT8 TensorOps。

0 人收藏 0 人点赞

mlx

提交意见反馈