@witcheer: 难以置信 gpt-oss-20b 在 8GB 显存上的表现。21B 总参数,3.6B 活跃参数(MoE)。OpenAI,Apache 2.0。仅使用 1.8 GB 显存…
摘要
一个全新的开源 MoE 模型,gpt-oss-20b(总共 21B,活跃 3.6B),仅需 1.8GB 显存即可运行,并在代理编程任务上获得满分,性能优于其他本地模型(如 Gemma 和 Qwen)。
查看缓存全文
缓存时间: 2026/05/25 02:40
难以置信,GPT-OSS-20B 在 8GB 显存上的性能表现。
总共 21B 参数,3.6B 活跃(MoE)。OpenAI,Apache 2.0。
通过专家卸载仅需 1.8 GB 显存。在 8 GB 显卡上,这根本不算什么。
我让它运行了 10 个智能编码任务(端口扫描、日志监控、TDD、数据管道、多模块构建)。 结果:10/10 通过。7 次自我修复。零幻觉 API。
我测试的其他本地模型没有能同时完成这两项基准任务的。Gemma 不行。Qwen 不行。OmniCoder 也不行。
1.8 GB 显存就能在消费级硬件上运行最好的智能模型。
相似文章
@eliebakouch:@OpenAI 这次发布太棒了!一个总参数量 1.5 B、仅激活 50 M 的 gpt-oss 架构 MoE,能从万亿级数据中廉价滤除隐私信息…
OpenAI 发布 15 亿总参数的 MoE 模型,仅激活 5000 万参数,即可在万亿 token 数据集中过滤隐私信息,同时保持 128 k 上下文长度。
@hank_aibtc: 家人们,本地 LLM太香了! 刷到 Hugging Face 上这个 gpt-oss-20b-tq3,真的有点上头! OpenAI 官方开源的 20B+ 参数 MoE 模型,被社区用 TurboQuant 3-bit 量化 + MLX 优…
The article highlights the gpt-oss-20b-tq3 model, a quantized version of an OpenAI MoE model that runs efficiently on standard 16GB MacBook Airs using TurboQuant and MLX optimizations.
在老款GTX 1080(8GB显存,128k上下文)上,约30B的MoE模型达到24+ tok/s的推理速度
一位开发者展示了如何使用llama.cpp,通过MoE卸载和TurboQuant KV缓存量化技术,在老款GTX 1080(8GB显存)上以128k上下文运行Qwen 3.6 35B-A3B和Gemma 4 26B-A4B等MoE模型,达到24+ tok/s的推理速度,并揭示了针对Gemma MTP投机解码的优化技巧。
推出 gpt-oss
OpenAI 发布 gpt-oss-120b 和 gpt-oss-20b,两款最先进的开放权重语言模型,采用 Apache 2.0 许可证,性能与专有模型相当,可针对消费级硬件和边缘设备进行优化。两款模型均展现出强大的推理和工具使用能力,并进行了全面的安全评估。
gpt-oss-120b & gpt-oss-20b 模型卡
OpenAI 发布了 gpt-oss-120b 和 gpt-oss-20b,这是两款采用 Apache 2.0 许可证的开权重推理模型,专为智能体工作流设计,具有强大的指令跟随、工具使用和思维链能力。该发布包括全面的安全评估,确认即使在对抗性微调下,这些模型也不会达到生物、化学或网络风险的高能力阈值。