标签
无审查版 GLM5.2 754B 参数模型(231GB GGUF)已成功部署在配备512GB内存的 Mac Studio M3 Ultra 上,实现了约3.6 tokens/s的速度。
Antirez宣布合并实现GLM 5.2的分支可能性很高,这可能成为运行在512GB Mac Studio上的最佳模型,并可能通过2位量化在分布式128GB MacBook上运行。
GLM 5.2 在配备 512GB RAM 的 Mac Studio 上带来了重大性能提升,在高上下文长度下实现超过 100 t/s 的预填充速度,并支持超过 10 万 token 上下文的 4 位量化,详细信息见 oMLX 创建者的拉取请求。
作者通过计算Mac Studio运行大模型的token成本和回本周期,得出结论:普通用户购买Mac自用大模型不划算,建议使用API或租卡更经济。
作者表示,如果苹果很快发布 M5 Ultra Mac Studio,他会立即订购最大内存版本,理由是 M3 Ultra 的高转售价值以及 M5 在推理性能上的巨大飞跃。
用户报告在 Mac Studio 上本地运行 GLM 5.2(2比特量化),声称其性能优于 Opus 4.8,并实现免费、私密的超级智能,用于编程和智能体任务。
GLM 5.2 是一款与顶级闭源模型相媲美的开放权重 AI 模型,现已发布,并在两台 Mac Studio(M3 Ultra)上通过 MLX 运行。
作者比较了用于LLM推理的各种GPU,批判了常见的基准测试,并强调了预填充性能比生成速度更重要,针对不同预算和使用场景给出了建议。
AWS为云服务获得了大量苹果M3 Ultra Mac Studio设备,而普通消费者则面临持续的缺货和有限的供应。
一位10岁博主分享了他对AI时代的理解,认为Tokens是硬通货,并运行多个AI Agent协同工作。
Antirez 报告称,DeepSeek v4 PRO 在配备 512GB 内存的 Mac Studio M3 Ultra 上使用 2 位量化运行良好,预填充速度达到 130 t/s,生成速度达到 13 t/s。
中国一个10岁孩子用Mac Studio运行多个AI代理,凸显了理解token和自动化的AI原生代儿童的崛起。
DGX Spark与Mac Studio M5 Max在本地运行LLM的对比,重点比较了解码速度、预填充性能、内存、功耗和成本。Mac在解码带宽上胜出,但DGX在预填充方面更快并支持批处理。
DS4 是由 antirez 开发的专业推理引擎,专为在高端 Mac 硬件上本地运行 DeepSeek V4 Flash 而设计,具有优化的 KV 缓存处理和 100 万上下文支持。
Apple 已从在线商店下架搭载 M3 Ultra 的 256GB 配置 Mac Studio,引发市场对未来机型存储选项的猜测。
文章认为,尽管 Mac Studio 拥有大容量统一内存,但由于缺乏 CUDA 支持且硬件不可升级,它并不适合 24/7 的本地 AI 工作流。
作者分享了一份针对本地运行大语言模型(LLM)的硬件购买指南,综合了社区反馈,对比了 Mac Studio、NVIDIA 和 AMD 的选项。
一位用户展示了在MacStudio M2 Ultra 64GB上运行的个人本地LLM栈,组合了SuperQwen3.6-35b-mlx-4bit、Ernie Image Turbo及多款辅助模型,用于编程与聊天。
彭博社报道,新款 Mac Studio 机型最早要到 2026 年 10 月才会上市,这引发了人们对 Apple 硬件何时能够运行 DeepSeek v4 等模型的疑问。