@hank_aibtc: 家人们，本地 LLM太香了！刷到 Hugging Face 上这个 gpt-oss-20b-tq3，真的有点上头！ OpenAI 官方开源的 20B+ 参数 MoE 模型，被社区用 TurboQuant 3-bit 量化 + MLX 优…

X AI KOLs Timeline 2026/05/10 01:28 模型

摘要

The article highlights the gpt-oss-20b-tq3 model, a quantized version of an OpenAI MoE model that runs efficiently on standard 16GB MacBook Airs using TurboQuant and MLX optimizations.

家人们，本地 LLM太香了！刷到 Hugging Face 上这个 gpt-oss-20b-tq3，真的有点上头！ OpenAI 官方开源的 20B+ 参数 MoE 模型，被社区用 TurboQuant 3-bit 量化 + MLX 优化后，竟然能在普通 MacBook（16GB 内存）上本地丝滑运行！不需要服务器、不用联网、数据绝对安全以前本地大模型还得高端显卡，现在一台 M 系列 Mac 就够了。 - 131K 超长上下文 - 完全离线、无月费 - 聊天、写作、写代码全能打 - 解码速度 60-80 tok/s 直接把在笔记本上跑顶级开源模型这件事拉到新高度。

查看原文

相似文章

@DivyanshT91162: 本地 LLM 迈入了一个全新的阶段。这个 Hugging Face 的发布简直是疯了：“gpt-oss-20b-tq3” 这是一个官方的 200 亿+ …

X AI KOLs Timeline

OpenAI 发布了一款全新的 200 亿参数以上的 MoE 模型，通过 TurboQuant 量化为 3-bit 并利用 MLX 优化，使得在标准的 16GB MacBook 上进行高性能的本地 LLM 推理成为可能。

@witcheer: 难以置信 gpt-oss-20b 在 8GB 显存上的表现。21B 总参数，3.6B 活跃参数（MoE）。OpenAI，Apache 2.0。仅使用 1.8 GB 显存…

X AI KOLs Timeline

一个全新的开源 MoE 模型，gpt-oss-20b（总共 21B，活跃 3.6B），仅需 1.8GB 显存即可运行，并在代理编程任务上获得满分，性能优于其他本地模型（如 Gemma 和 Qwen）。

@cuisitekp: 9B 的模型，把比它大好几倍的模型干下去了。 Ai2 和华盛顿大学那拨做 OLMo / Tülu 的人，放出一篇新论文叫 Tmax，自称是目前最强的开源「终端 agent」RL 训练配方。成绩：一个 9B 模型在 Terminal-Be…

X AI KOLs Timeline

Ai2和华盛顿大学发布论文Tmax，提出目前最强的开源终端智能体RL训练配方。仅用9B参数模型在Terminal-Bench 2.0上击败更大模型，关键在于低成本生成大量可验证训练数据，而非模型规模或算法。

@lucastech: 真的很酷，看到gpt-oss-20b与我测试过的所有其他模型相比有多大的不同，每种量化都显著…

X AI KOLs Timeline

GPT-OSS-20B模型在量化过程中展现出显著的智能提升，同时保持相似大小，与其他模型不同。

@tom_doerr: 在 16GB 内存 Mac 上运行 35B 模型 https://github.com/walter-grace/mac-code…

X AI KOLs Timeline

该工具支持通过从 SSD 流式加载模型权重，在 16GB Mac 上运行 Qwen3.5-35B 等大型语言模型，经优化配置后最高可达 30 tok/s。

相似文章

@DivyanshT91162: 本地 LLM 迈入了一个全新的阶段。这个 Hugging Face 的发布简直是疯了：“gpt-oss-20b-tq3” 这是一个官方的 200 亿+ …

@witcheer: 难以置信 gpt-oss-20b 在 8GB 显存上的表现。21B 总参数，3.6B 活跃参数（MoE）。OpenAI，Apache 2.0。仅使用 1.8 GB 显存…

@cuisitekp: 9B 的模型，把比它大好几倍的模型干下去了。 Ai2 和华盛顿大学那拨做 OLMo / Tülu 的人，放出一篇新论文叫 Tmax，自称是目前最强的开源「终端 agent」RL 训练配方。 成绩：一个 9B 模型在 Terminal-Be…

@lucastech: 真的很酷，看到gpt-oss-20b与我测试过的所有其他模型相比有多大的不同，每种量化都显著…

@tom_doerr: 在 16GB 内存 Mac 上运行 35B 模型 https://github.com/walter-grace/mac-code…

提交意见反馈

@cuisitekp: 9B 的模型，把比它大好几倍的模型干下去了。 Ai2 和华盛顿大学那拨做 OLMo / Tülu 的人，放出一篇新论文叫 Tmax，自称是目前最强的开源「终端 agent」RL 训练配方。成绩：一个 9B 模型在 Terminal-Be…