@witcheer: 难以置信 gpt-oss-20b 在 8GB 显存上的表现。21B 总参数，3.6B 活跃参数（MoE）。OpenAI，Apache 2.0。仅使用 1.8 GB 显存…

X AI KOLs Timeline 2026/05/24 16:44 模型

open-source mixture-of-experts coding agentic consumer-hardware vram-efficiency

摘要

一个全新的开源 MoE 模型，gpt-oss-20b（总共 21B，活跃 3.6B），仅需 1.8GB 显存即可运行，并在代理编程任务上获得满分，性能优于其他本地模型（如 Gemma 和 Qwen）。

难以置信 gpt-oss-20b 在 8GB 显存上的表现 21B 总参数，3.6B 活跃参数（MoE）。OpenAI，Apache 2.0。仅使用 1.8 GB 显存（配合专家卸载）。在 8GB 显卡上，这根本不占多少。我让它执行了 10 个代理编程任务（端口扫描器、日志监视器、TDD、数据管道、多模块构建）。结果：10/10 通过。7 次自我修复。零幻觉 API。我测试的其他本地模型没有一个能同时完成这两个基准任务。Gemma 不行。Qwen 不行。OmniCoder 也不行。 1.8 GB 显存就能拥有消费级硬件上最佳的代理模型。

查看原文

查看缓存全文

缓存时间: 2026/05/25 02:40

难以置信，GPT-OSS-20B 在 8GB 显存上的性能表现。

总共 21B 参数，3.6B 活跃（MoE）。OpenAI，Apache 2.0。

通过专家卸载仅需 1.8 GB 显存。在 8 GB 显卡上，这根本不算什么。

我让它运行了 10 个智能编码任务（端口扫描、日志监控、TDD、数据管道、多模块构建）。结果：10/10 通过。7 次自我修复。零幻觉 API。

我测试的其他本地模型没有能同时完成这两项基准任务的。Gemma 不行。Qwen 不行。OmniCoder 也不行。

1.8 GB 显存就能在消费级硬件上运行最好的智能模型。

相似文章

@eliebakouch：@OpenAI 这次发布太棒了！一个总参数量 1.5 B、仅激活 50 M 的 gpt-oss 架构 MoE，能从万亿级数据中廉价滤除隐私信息…

X AI KOLs Following

OpenAI 发布 15 亿总参数的 MoE 模型，仅激活 5000 万参数，即可在万亿 token 数据集中过滤隐私信息，同时保持 128 k 上下文长度。

@hank_aibtc: 家人们，本地 LLM太香了！刷到 Hugging Face 上这个 gpt-oss-20b-tq3，真的有点上头！ OpenAI 官方开源的 20B+ 参数 MoE 模型，被社区用 TurboQuant 3-bit 量化 + MLX 优…

X AI KOLs Timeline

The article highlights the gpt-oss-20b-tq3 model, a quantized version of an OpenAI MoE model that runs efficiently on standard 16GB MacBook Airs using TurboQuant and MLX optimizations.

@witcheer: 难以置信 gpt-oss-20b 在 8GB 显存上的表现。21B 总参数，3.6B 活跃参数（MoE）。OpenAI，Apache 2.0。仅使用 1.8 GB 显存…

相似文章

@eliebakouch：@OpenAI 这次发布太棒了！一个总参数量 1.5 B、仅激活 50 M 的 gpt-oss 架构 MoE，能从万亿级数据中廉价滤除隐私信息…

@hank_aibtc: 家人们，本地 LLM太香了！刷到 Hugging Face 上这个 gpt-oss-20b-tq3，真的有点上头！ OpenAI 官方开源的 20B+ 参数 MoE 模型，被社区用 TurboQuant 3-bit 量化 + MLX 优…

在老款GTX 1080（8GB显存，128k上下文）上，约30B的MoE模型达到24+ tok/s的推理速度

推出 gpt-oss

gpt-oss-120b & gpt-oss-20b 模型卡

提交意见反馈

相似文章

@eliebakouch：@OpenAI 这次发布太棒了！一个总参数量 1.5 B、仅激活 50 M 的 gpt-oss 架构 MoE，能从万亿级数据中廉价滤除隐私信息…

@hank_aibtc: 家人们，本地 LLM太香了！ 刷到 Hugging Face 上这个 gpt-oss-20b-tq3，真的有点上头！ OpenAI 官方开源的 20B+ 参数 MoE 模型，被社区用 TurboQuant 3-bit 量化 + MLX 优…

在老款GTX 1080（8GB显存，128k上下文）上，约30B的MoE模型达到24+ tok/s的推理速度

推出 gpt-oss

gpt-oss-120b & gpt-oss-20b 模型卡

提交意见反馈

@hank_aibtc: 家人们，本地 LLM太香了！刷到 Hugging Face 上这个 gpt-oss-20b-tq3，真的有点上头！ OpenAI 官方开源的 20B+ 参数 MoE 模型，被社区用 TurboQuant 3-bit 量化 + MLX 优…