8gb-vram

#8gb-vram

@analogalok: Gemma 4 12B QAT（密集）在8GB显存和120k上下文下实现超过1000 tokens/秒的预填充速度 Gemma 4 12B QAT（密集），TurboQ…

X AI KOLs Following ↗ · 2026-06-18 缓存

Gemma 4 12B QAT（密集）使用TurboQuant在8GB RTX 4060上实现超过1000 tokens/秒的预填充速度，支持120k上下文，实现完整的GPU层卸载。相比之前的方法，预填充速度提升了42%。

0 人收藏 0 人点赞

#8gb-vram

@analogalok：我的8GB显存游戏本肯定会恨我这么做，但我还是做了。跑了一个31B稠密模型（Gemma 4…

X AI KOLs Timeline ↗ · 2026-06-16 缓存

用户在8GB显存的游戏本上，使用llama.cpp配合MTP推测解码，以约3 tokens/s的速度运行了Gemma 4 31B稠密模型，展示了在消费级硬件上运行31B稠密模型的可行性，并提出了智能体工作流程：快速MoE模型将困难任务路由给这个较慢的稠密模型。

0 人收藏 0 人点赞

#8gb-vram

@VincentLogic: 一台 8GB 显存的入门笔记本现在可以跑一个完全自主的 AI Agent 方法：Gemma 4 26B + Hermes Desktop 本地跑 26B 模型，8GB 显存 + 16GB 内存就够接上 Hermes 之后它能做什么： …

X AI KOLs Timeline ↗ · 2026-06-08 缓存

介绍使用 Gemma 4 26B 模型与 Hermes Desktop 工具在 8GB 显存入门笔记本上运行完全自主的 AI Agent，实现本地文件操作、代码修改、网页浏览等功能，显著降低了本地 Agent 的门槛。

0 人收藏 0 人点赞

#8gb-vram

从零开始在8GB显存上训练LLM。我开心

Reddit r/LocalLLaMA ↗ · 2026-05-29

构建了一个仓库，用于在8GB显存上从零训练一个微型语言模型（25M参数），支持MTP，但指出mHC和BitNet的局限性。

0 人收藏 0 人点赞

#8gb-vram

在老款GTX 1080（8GB显存，128k上下文）上，约30B的MoE模型达到24+ tok/s的推理速度

Reddit r/LocalLLaMA ↗ · 2026-05-13

一位开发者展示了如何使用llama.cpp，通过MoE卸载和TurboQuant KV缓存量化技术，在老款GTX 1080（8GB显存）上以128k上下文运行Qwen 3.6 35B-A3B和Gemma 4 26B-A4B等MoE模型，达到24+ tok/s的推理速度，并揭示了针对Gemma MTP投机解码的优化技巧。

0 人收藏 0 人点赞

8gb-vram

@analogalok: Gemma 4 12B QAT（密集）在8GB显存和120k上下文下实现超过1000 tokens/秒的预填充速度 Gemma 4 12B QAT（密集），TurboQ…

@analogalok：我的8GB显存游戏本肯定会恨我这么做，但我还是做了。跑了一个31B稠密模型（Gemma 4…

@VincentLogic: 一台 8GB 显存的入门笔记本 现在可以跑一个完全自主的 AI Agent 方法：Gemma 4 26B + Hermes Desktop 本地跑 26B 模型，8GB 显存 + 16GB 内存就够 接上 Hermes 之后它能做什么： …

从零开始在8GB显存上训练LLM。我开心

在老款GTX 1080（8GB显存，128k上下文）上，约30B的MoE模型达到24+ tok/s的推理速度

提交意见反馈

@VincentLogic: 一台 8GB 显存的入门笔记本现在可以跑一个完全自主的 AI Agent 方法：Gemma 4 26B + Hermes Desktop 本地跑 26B 模型，8GB 显存 + 16GB 内存就够接上 Hermes 之后它能做什么： …