@jundotkim: oMLX 0.3.9.dev2 已发布。亮点包括:- 视觉路径上的 Gemma 4 MTP(感谢 @Prince_Canuma 的 mlx-vlm)。图像+文本的解码速度显著提升 -...
摘要
oMLX 0.3.9.dev2 已发布,带来了对 Gemma 4 的改进支持、DFlash 引擎集成以及 ParoQuant 功能,优化了在 Apple Silicon 上的本地 LLM 推理体验。
查看缓存全文
缓存时间: 2026/05/13 00:26
oMLX
LLM 推理,针对你的 Mac 进行了优化。直接从菜单栏管理连续批处理(Continuous batching)和分层 KV 缓存。
[email protected] · https://omlx.ai/me
安装 · 快速开始 · 功能特性 · 模型 · CLI 配置 · 基准测试 · oMLX.ai
English · 中文 · 한국어 · 日本語
相似文章
jundot/omlx
oMLX 是一个用于在 Apple Silicon Mac 上进行优化 LLM 推理的新开源工具,具备持续批处理和分层 KV 缓存功能,并通过菜单栏应用进行管理。
@Prince_Canuma: Gemma 4 + 🦅 = brrr 下一次 MLX-VLM 版本将包含大量改进!这里是对 Eagle3 推测解码的初步预览…
下一次 MLX-VLM 版本包含改进,并提供了对 Gemma 4 模型的 Eagle3 推测解码预览。
MLX 上新的 Gemma 4 MTP?
Google 发布了用于 Gemma 4 的多 token 预测草稿器,通过推测性解码加速推理,但目前对 MLX 的支持尚未确认或不可用。
@Prince_Canuma:祝贺 @OpenBMB 发布 MiniCPM-V 4.6!MLX-VLM 已为其提供 Day-0 支持,感谢 Magic Yang。运行…
OpenBMB 已发布 MiniCPM-V 4.6 视觉语言模型。该模型在发布首日即获得 MLX-VLM 软件包的支持,可在搭载 Apple Silicon 的 Mac 上实现高速推理。
Jiunsong/supergemma4-26b-uncensored-mlx-4bit-v2
SuperGemma4-26B-Uncensored-MLX-4bit-v2 是 Google Gemma 4 26B 的微调量化版本,专为 Apple Silicon 优化,在代码、推理和工具使用任务上性能提升,同时保持比原版基线更快的推理速度。