@hank_aibtc: 家人们,本地 LLM太香了! 刷到 Hugging Face 上这个 gpt-oss-20b-tq3,真的有点上头! OpenAI 官方开源的 20B+ 参数 MoE 模型,被社区用 TurboQuant 3-bit 量化 + MLX 优…
摘要
The article highlights the gpt-oss-20b-tq3 model, a quantized version of an OpenAI MoE model that runs efficiently on standard 16GB MacBook Airs using TurboQuant and MLX optimizations.
家人们,本地 LLM太香了! 刷到 Hugging Face 上这个 gpt-oss-20b-tq3,真的有点上头! OpenAI 官方开源的 20B+ 参数 MoE 模型,被社区用 TurboQuant 3-bit 量化 + MLX 优化后,竟然能在普通 MacBook(16GB 内存)上本地丝滑运行! 不需要服务器、不用联网、数据绝对安全 以前本地大模型还得高端显卡,现在一台 M 系列 Mac 就够了。 - 131K 超长上下文 - 完全离线、无月费 - 聊天、写作、写代码全能打 - 解码速度 60-80 tok/s 直接把在笔记本上跑顶级开源模型这件事拉到新高度。
相似文章
@DivyanshT91162: 本地 LLM 迈入了一个全新的阶段。这个 Hugging Face 的发布简直是疯了:“gpt-oss-20b-tq3” 这是一个官方的 200 亿+ …
OpenAI 发布了一款全新的 200 亿参数以上的 MoE 模型,通过 TurboQuant 量化为 3-bit 并利用 MLX 优化,使得在标准的 16GB MacBook 上进行高性能的本地 LLM 推理成为可能。
@witcheer: 难以置信 gpt-oss-20b 在 8GB 显存上的表现。21B 总参数,3.6B 活跃参数(MoE)。OpenAI,Apache 2.0。仅使用 1.8 GB 显存…
一个全新的开源 MoE 模型,gpt-oss-20b(总共 21B,活跃 3.6B),仅需 1.8GB 显存即可运行,并在代理编程任务上获得满分,性能优于其他本地模型(如 Gemma 和 Qwen)。
@cuisitekp: 9B 的模型,把比它大好几倍的模型干下去了。 Ai2 和华盛顿大学那拨做 OLMo / Tülu 的人,放出一篇新论文叫 Tmax,自称是目前最强的开源「终端 agent」RL 训练配方。 成绩:一个 9B 模型在 Terminal-Be…
Ai2和华盛顿大学发布论文Tmax,提出目前最强的开源终端智能体RL训练配方。仅用9B参数模型在Terminal-Bench 2.0上击败更大模型,关键在于低成本生成大量可验证训练数据,而非模型规模或算法。
@lucastech: 真的很酷,看到gpt-oss-20b与我测试过的所有其他模型相比有多大的不同,每种量化都显著…
GPT-OSS-20B模型在量化过程中展现出显著的智能提升,同时保持相似大小,与其他模型不同。
@tom_doerr: 在 16GB 内存 Mac 上运行 35B 模型 https://github.com/walter-grace/mac-code…
该工具支持通过从 SSD 流式加载模型权重,在 16GB Mac 上运行 Qwen3.5-35B 等大型语言模型,经优化配置后最高可达 30 tok/s。