@DivyanshT91162: 本地 LLM 迈入了一个全新的阶段。这个 Hugging Face 的发布简直是疯了:“gpt-oss-20b-tq3” 这是一个官方的 200 亿+ …

X AI KOLs Timeline 新闻

摘要

OpenAI 发布了一款全新的 200 亿参数以上的 MoE 模型,通过 TurboQuant 量化为 3-bit 并利用 MLX 优化,使得在标准的 16GB MacBook 上进行高性能的本地 LLM 推理成为可能。

本地 LLM 刚刚迈入了一个全新的阶段。这个 Hugging Face 的发布简直是不可思议:“gpt-oss-20b-tq3” 这是一个来自 OpenAI 的官方 200 亿+ 参数 MoE 模型…… 通过 TurboQuant 量化为 3-bit 并利用 MLX 优化…… ……现在它可以在普通的 16GB MacBook 上流畅运行。无需服务器。无需云服务账单。无需互联网连接。所有数据完全保留在本地。几个月前,这需要高端的 GPU 配置。而现在,M 系列 Mac 就能轻松应对。 • 131K 上下文窗口 • 完全离线 + 隐私保护 • 非常适合聊天、写作和编码 • 60–80 tok/s 的解码速度 • 无需月度订阅 在笔记本电脑上直接运行顶级开源 LLM,感觉已经不再真实了。
查看原文

相似文章

我在 MacBook Air M5 上对 21 款本地大模型进行了代码质量与速度的性能评测

Reddit r/LocalLLaMA

一位开发者在 MacBook Air M5 上使用 HumanEval+ 对 21 款本地大模型进行了基准测试,发现 Qwen 3.6 35B-A3B (MoE) 以 89.6% 的得分和 16.9 tok/s 的速度位居榜首,而 Qwen 2.5 Coder 7B 仅需 4.5 GB 内存即可达到 84.2% 的性能,拥有最佳的内存性价比。值得注意的是,Gemma 4 系列的表现远低于预期(31B 版本仅得 31.1%),这可能是受 Q4_K_M 量化策略的影响。