标签
DeepSeek-V4-Flash 的消融版(未审查),针对 Apple Mac 使用 MLX 进行了优化,移除了拒绝行为,同时保留了知识和推理能力。
mlx-lm 的一个 PR 为 Cohere 的 Command A+ (218B MoE) 模型在 Apple Silicon 上增加了支持,并附有架构实现细节。
为exo本地推理工具添加了对Qwen3.6 MLX模型的原生多token预测(MTP)支持,在M5 Max笔记本上对27B模型实现了高达2倍的加速,同时保持精确度。
Silicon Studio 是一款开源桌面应用,支持在 Apple Silicon Mac 上使用 MLX 进行本地大语言模型微调和推理,具备数据准备、模型管理和可视化配置等功能。
演示了在MacBook Pro M5上使用Codex CLI和LM Studio(搭载Qwen 3.6,并利用MLX批处理功能)本地运行子代理以进行代码审查和漏洞检测。
推荐 Awni Hannun 的《Writing Fast MLX》技能给使用 Apple MLX 框架的开发者的推文。
一份实用指南,介绍如何通过分层包装系统和一致的目录结构来组织本地LLM实验,以避免模型位置漂移、标志遗忘和测试框架耦合。
Sabesh Bharathi 设想在 MacBooks 上使用 MLX 实现个性化主动 AI 助手,并宣布于 5 月 3 日举办了首次 MLX 印度社区聚会。
oMLX 0.3.9rc1,一个为Apple Silicon Mac优化的LLM推理服务器,增加了低内存稳定性、分块预填充、多任务管理聊天等功能。
关于硬件进水损坏修复的个人更新,展示MLX-VLM在本地RTX6000 Pro上运行Qwen3-4B-Instruct,以约300 tok/s的速度通过Zed IDE实现自动补全和git提交信息生成。
一篇博客文章,对比了MLX推理引擎,结论是oMLX是最佳选择,评测在M5 Max 64GB上使用Qwen3.6-35B-A3B-4bit。
ExecuTorch 现有一个 MLX 委托,可在 Apple Silicon Mac 上为 PyTorch 模型提供 GPU 加速推理,支持大语言模型、语音转文字以及通过 TorchAO 进行量化的 MoE 模型。
将SAM 2.1模型移植到Apple silicon上(使用MLX),在小模型上实现了1.25倍推理速度提升,计划推出量化版。
Google 的 Gemma 4 E2B 通过 MLX 优化在 iPhone 17 Pro 上运行演示,达到约 40 tokens/秒,支持 128K 上下文以及离线思考模式,适用于编程和数学。
这条推文推荐了适用于128GB MacBook Pro的本地AI编程方案,使用Qwen 3.6模型搭配MLX服务器及特定配置,以实现可靠的编程辅助。
Cider 是一个开源项目,专为 Apple Silicon Mac 设计,通过充分利用 M 系列芯片的算力来加速本地 AI 推理,适配 MLX 生态,支持 Qwen、Llama 等模型,安装简单。
一篇关于 δ-mem 的新研究论文在与 openclaw 集成后,将智能体响应质量提升了 7-32%。该项目目前仅适用于 mlx 和 Qwen3:4b,但预计会推出其他模型的适配器。
作者使用MLX和OpenClaw在Apple Silicon上实现了δ-mem研究论文,展示了在本地AI代理测试中的内存和注意力改进,尽管与CUDA基准相比结果好坏参半。
MTPLX 是 MLX 与 MTP 的整合解决方案,专门针对 Apple Silicon 优化模型推理速度,测试显示 Qwen3.6-27B 推理速度比 LM Studio 翻倍,并集成了风扇管理。