dense-model

#dense-model

@analogalok: Gemma 4 12B QAT（密集）在8GB显存和120k上下文下实现超过1000 tokens/秒的预填充速度 Gemma 4 12B QAT（密集），TurboQ…

X AI KOLs Following ↗ · 7小时前缓存

Gemma 4 12B QAT（密集）使用TurboQuant在8GB RTX 4060上实现超过1000 tokens/秒的预填充速度，支持120k上下文，实现完整的GPU层卸载。相比之前的方法，预填充速度提升了42%。

0 人收藏 0 人点赞

#dense-model

X AI KOLs Timeline ↗ · 昨天缓存

用户在8GB显存的游戏本上，使用llama.cpp配合MTP推测解码，以约3 tokens/s的速度运行了Gemma 4 31B稠密模型，展示了在消费级硬件上运行31B稠密模型的可行性，并提出了智能体工作流程：快速MoE模型将困难任务路由给这个较慢的稠密模型。

0 人收藏 0 人点赞

#dense-model

X AI KOLs Timeline ↗ · 2026-06-03 缓存

谷歌DeepMind研究员宣布发布Gemma 4 12B，一种无编码器的密集模型，可处理文本、图像和音频输入，延续了跨模态统一模型的研究工作。

0 人收藏 0 人点赞

#dense-model

X AI KOLs Timeline ↗ · 2026-06-03 缓存

Google 发布了 Gemma 4 12B，这是一款紧凑的中型模型，可在笔记本上运行，采用 Apache 2.0 许可证，现在已在 LM Studio 中可用。

0 人收藏 0 人点赞

#dense-model

Reddit r/LocalLLaMA ↗ · 2026-04-22

最新 3.6-27B 版本显示，MoE 在代码任务及长上下文场景中正快速逼近 Dense 模型，尽管 Dense 整体仍领先。

0 人收藏 0 人点赞

#dense-model

Simon Willison's Blog ↗ · 2026-04-22 缓存

Qwen发布Qwen3.6-27B，这款27B稠密模型号称代码性能达到旗舰水准，甚至超越更大的Qwen3.5-397B-A17B MoE，并展示了令人惊艳的SVG生成演示。

0 人收藏 0 人点赞

#dense-model

Hacker News Top ↗ · 2026-04-22

阿里巴巴发布270亿参数稠密模型Qwen3.6-27B，带来旗舰级代码生成表现。

0 人收藏 0 人点赞