@jundotkim: oMLX 0.3.9.dev2 已发布。亮点包括:- 视觉路径上的 Gemma 4 MTP(感谢 @Prince_Canuma 的 mlx-vlm)。图像+文本的解码速度显著提升 -...
摘要
oMLX 0.3.9.dev2 已发布,带来了对 Gemma 4 的改进支持、DFlash 引擎集成以及 ParoQuant 功能,优化了在 Apple Silicon 上的本地 LLM 推理体验。
查看缓存全文
缓存时间: 2026/05/13 00:26
oMLX
LLM 推理,针对你的 Mac 进行了优化。直接从菜单栏管理连续批处理(Continuous batching)和分层 KV 缓存。
[email protected] · https://omlx.ai/me
安装 · 快速开始 · 功能特性 · 模型 · CLI 配置 · 基准测试 · oMLX.ai
English · 中文 · 한국어 · 日本語
相似文章
@jundotkim: oMLX 0.3.9rc1 发布。亮点:- 低内存Mac保持稳定,不再被系统杀死 - DFlash 升级至…
oMLX 0.3.9rc1,一个为Apple Silicon Mac优化的LLM推理服务器,增加了低内存稳定性、分块预填充、多任务管理聊天等功能。
@jundotkim:我刚发布了 oMLX v0.4.0,这是首个搭载全新原生 Swift macOS 应用的正式版本。
oMLX v0.4.0 搭载了原生 Swift macOS 应用,具备重新设计的引导流程、设置界面、Hugging Face 缓存发现功能,以及改进的模型管理,用于在 Mac 上运行本地 AI。
@Prince_Canuma:今天我们发布了最大规模的 MLX-VLM 更新:v0.6.0 ……并且我们正在提升。这次更新旨在将你的 Apple 设备……
MLX-VLM v0.6.0 已发布,新增推测解码、兼容 Anthropic API 的智能体服务器、新模型(DeepSeek V4、ZAYA1-VL 等)、图像生成/编辑以及音频输入支持,使 Apple 设备上能运行本地 AI 智能体。
jundot/omlx
oMLX 是一个用于在 Apple Silicon Mac 上进行优化 LLM 推理的新开源工具,具备持续批处理和分层 KV 缓存功能,并通过菜单栏应用进行管理。
在MLX中使用turboquant(及自定义内核)运行Gemma4 26b MoE
一位开发者成功在Apple MacBook Air M5上使用MLX、turboquant和自定义内核运行了Gemma4 26b MoE,实现了比llama.cpp更快的提示处理和生成速度,且内存占用更低。实现方式包括本地部署说明。