mlx

标签

Cards List
#mlx

从零开始使用MLX构建大语言模型

Reddit r/LocalLLaMA · 12小时前

一份关于使用Apple的MLX框架从零开始构建大语言模型的指南。

0 人收藏 0 人点赞
#mlx

650多个Apache-2.0许可的生物医学NER/去标识化模型,在MLX中设备端运行。相同fp32权重,输出一致:临床NER模型在3年前的M3 Max上比PyTorch-CPU快30-40倍。内部可复现。

Reddit r/LocalLLaMA · 昨天

650多个Apache-2.0许可的生物医学NER和去标识化模型集合,通过MLX在设备端运行,在M3 Max上实现比PyTorch-CPU快30-40倍的推理速度,且输出一致。

0 人收藏 0 人点赞
#mlx

@cevenif: 用苹果电脑跑本地大模型的朋友,有个工具值得盯上——Rapid-MLX。它在 M 系列芯片上的推理速度比 Ollama 快 2 到 4 倍,因为它是直接基于苹果的 MLX 框架开发的,对芯片架构的压榨更彻底。 几个关键点: KV 缓存裁剪加…

X AI KOLs Timeline · 2026-06-18 缓存

Rapid-MLX 是一个针对苹果 M 系列芯片优化的本地大模型推理工具,基于 MLX 框架开发,推理速度比 Ollama 快 2 到 4 倍,支持多种模型、工具调用及 OpenAI API 兼容接口。

0 人收藏 0 人点赞
#mlx

@pcuenq:GLM 5.2 刚刚发布,现在已经在两台 Mac Studio(M3 Ultra)上通过 MLX 运行。这相当于……

X AI KOLs Timeline · 2026-06-16 缓存

GLM 5.2 是一款与顶级闭源模型相媲美的开放权重 AI 模型,现已发布,并在两台 Mac Studio(M3 Ultra)上通过 MLX 运行。

0 人收藏 0 人点赞
#mlx

@no_stp_on_snek: MiniMax-M3 的 Config-I 量化版本已发布在 MLX 上。2-bit 专家、4-bit 注意力、8-bit 边界与嵌入、f16 路由器。约…

X AI KOLs Following · 2026-06-16 缓存

发布了 MiniMax-M3 的 Config-I 量化版本,在 MLX 上使用 2-bit 专家和 4-bit 注意力,将 427B MoE 模型从 869GB 减少到约 167GB,但该量化版本未经测试且需要为 mlx_lm 打补丁。

0 人收藏 0 人点赞
#mlx

React Native ExecuTorch 现已支持 Gemma 4(Vulkan 和 MLX 加速)

Reddit r/LocalLLaMA · 2026-06-15

react-native-executorch 库现已集成 Google 的 Gemma 4 模型,可实现完全离线的 GPU 加速推理,在 Android 上使用 Vulkan 委托,在 Apple Silicon 上使用 MLX 委托。

0 人收藏 0 人点赞
#mlx

@ActuallyIsaak:这是一个实际运行的端到端过程,从训练到在LM Studio中使用训练好的LLM,由@lmstudio的MLX-LoRA-Studio提供

X AI KOLs Following · 2026-06-14 缓存

MLX-LoRA-Studio 是一款原生的macOS应用,用于在Apple Silicon上微调LLM,提供用户友好的界面,支持多种训练算法,包括SFT、DPO和QAT。它完全开源,允许本地私有微调,无需依赖云端。

0 人收藏 0 人点赞
#mlx

@julien_c:这是个好消息:由@jundotkim开发的oMLX现在支持标准的HF缓存模型目录。为本地AI打造的优秀MLX服务器…

X AI KOLs Following · 2026-06-12 缓存

oMLX是一款用于本地AI的MLX服务器,现在支持标准的Hugging Face缓存模型目录,简化了模型加载过程。

0 人收藏 0 人点赞
#mlx

@awnihannun: @angeloskath 关于使用MLX构建本地自主AI的视频非常出色。我还听说这是观看次数最多的视频之一……

X AI KOLs Following · 2026-06-12 缓存

一条推文强调了Angelos Kath在WWDC上关于使用MLX构建本地自主AI的出色视频,指出开源权重模型和硬件能力的快速进展。

0 人收藏 0 人点赞
#mlx

MTPLX V1:用于运行和创建MLX MTP模型的Swift应用(2倍TPS的Qwen 3.6 27B)

Reddit r/LocalLLaMA · 2026-06-12

MTPLX V1是一款原生Mac应用,集成了用于MLX模型的MTP投机解码引擎,提供通过Forge进行模型转换、内置聊天、基准测试以及支持较小模型等功能。它实现了超过2倍的加速,且数学上精确无误。

0 人收藏 0 人点赞
#mlx

@yagilb: 我今年有幸在WWDC上演讲,在舞台上现场演示@lmstudio即将推出的聚类功能…

X AI KOLs Following · 2026-06-10 缓存

Yagil Bubrovnik在WWDC上演讲,现场演示了LM Studio即将推出的聚类功能,并对MLX团队的工作表示感谢。

0 人收藏 0 人点赞
#mlx

发布 Cohere North Mini Code

Reddit r/LocalLLaMA · 2026-06-09

Cohere正式发布North Mini Code编程模型,权重可在Hugging Face上获取,并支持vLLM和MLX部署。

0 人收藏 0 人点赞
#mlx

@awnihannun: Three MLX videos dropped at WWDC: Running agents locally by @angeloskath https://youtube.com/watch?v=wykPErJ8M-8… Distr…

X AI KOLs Following · 2026-06-09 缓存

Three MLX videos from WWDC demonstrate running AI agents entirely locally on Apple Silicon using the MLX stack, including local inference, tool calling, and distributed inference across Macs, enabling no-cloud, offline AI workflows.

0 人收藏 0 人点赞
#mlx

New MLX LM Server From Apple

Reddit r/LocalLLaMA · 2026-06-09 缓存

Apple MLX 团队推出 MLX LM Server,一个在 Mac 上完全本地运行 AI 智能体工作流的工具,支持连续批处理、分布式推理和 M5 神经加速,无需云端或 API 密钥。

0 人收藏 0 人点赞
#mlx

@RayFernando1337: Extreme Alpha RN: 我们为活动邀请了一位来自 Google 的特邀嘉宾,来聊聊下一代基础模型。另外还有…

X AI KOLs Following · 2026-06-08 缓存

在 Extreme Alpha RN 活动中,一位来自 Google 的特邀嘉宾将讨论下一代基础模型,另外还有 MLX 联合创始人 Awni Hannun 也将出席。

0 人收藏 0 人点赞
#mlx

@jundotkim:我刚发布了 oMLX v0.4.0,这是首个搭载全新原生 Swift macOS 应用的正式版本。

X AI KOLs Timeline · 2026-06-02 缓存

oMLX v0.4.0 搭载了原生 Swift macOS 应用,具备重新设计的引导流程、设置界面、Hugging Face 缓存发现功能,以及改进的模型管理,用于在 Mac 上运行本地 AI。

0 人收藏 0 人点赞
#mlx

我构建了mlx-Chronos——一个面向Apple Silicon上本地LLM引擎的社区基准测试排行榜(oMLX、Rapid-MLX、mlx-lm、Ollama)

Reddit r/LocalLLaMA · 2026-05-31

一位计算机科学学生构建了mlx-Chronos,这是一个开源命令行工具,通过测量TTFT、吞吐量、内存使用和热状态,标准化Apple Silicon上MLX推理引擎的基准测试,并提供一个社区排行榜来分享结果。

0 人收藏 0 人点赞
#mlx

mlx-code — 用于Apple Silicon的本地LLM编码代理

Reddit r/artificial · 2026-05-31 缓存

mlx-code是一个Python包,为Apple Silicon提供了一个本地优先的LLM编码代理,集成了MLX推理服务器、多协议API支持、git工作树隔离以及可组合的多智能体原语。

0 人收藏 0 人点赞
#mlx

@badlogicgames:pibot 现在完全本地运行,使用 parakeet 进行语音转文字(STT),qwen3-tts 进行文字转语音(TTS),以及 Qwen 3.6 作为本地的多模态大语言模型……

X AI KOLs Following · 2026-05-29 缓存

pibot 现已完全本地化,采用 Parakeet 进行语音转文字(STT),Qwen3-tts 进行文字转语音(TTS),并通过 llama.cpp 使用 Qwen 3.6 作为本地多模态大语言模型,推理引擎基于 Rust/mlx-c,实现了零 Python 依赖。

0 人收藏 0 人点赞
#mlx

我们为MLX添加了W8A8激活量化——在M5 Pro上预填充从2.84s降至2.52s

Reddit r/LocalLLaMA · 2026-05-25

Mininglamp AI发布了Cider,一个在Apple的MLX框架上添加W8A8激活量化的小型SDK,通过自定义Metal内核,在M5 Pro上对大型语言模型实现预填充最高1.84倍加速。该工具可与任何MLX模型配合使用,支持M5及以上芯片的INT8 TensorOps。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈