quantization-aware-training

标签

#quantization-aware-training

@TeksEdge：我对谷歌 Gemma 4 技术报告最惊讶的是，他们通过大量……进行了极其激进的优化

X AI KOLs Timeline ↗ · 2026-07-08 缓存

对谷歌 Gemma 4 技术报告的评论，指出他们通过量化感知训练（QAT）和多令牌预测（MTP）进行了激进的优化，以实现更快的推理。

0 人收藏 0 人点赞

#quantization-aware-training

可变位宽量化：为“更大但更小”的语言模型学习每组的精度

arXiv cs.LG ↗ · 2026-07-07 缓存

介绍了可变位宽量化（VBQ），一种训练时的方法，其中每组64个权重通过Gumbel-Softmax松弛学习自己的位宽（1、2、4、8）。VBQ发现了一种异构分配，实现了“更大但更小”的机制，例如，平均位宽1.82的1.31亿参数模型在TinyStories上的困惑度为4.2，击败了5500万FP16模型（困惑度4.4），同时存储减少3.8倍；而1.46B模型在FineWeb-Edu上与593M FP16控制模型表现相当，存储减少约3.7倍。

0 人收藏 0 人点赞

#quantization-aware-training

Gemma4-12B-QAT Uncensored Balanced 现已发布，支持 MTP（约 60% 速度提升）！

Reddit r/LocalLLaMA ↗ · 2026-06-22

Gemma4-12B-QAT Uncensored Balanced 发布，这是一个经过微调的无审查模型，配备多 token 预测草案头，可实现约 60% 更快的推测解码，针对 llama.cpp 优化，并支持视觉功能。

0 人收藏 0 人点赞

#quantization-aware-training

@_philschmid: 权重：https://huggingface.co/collections/google/gemma-4-qat-q4-0… 博客：https://blog.google/innovation-and-ai/techno…

X AI KOLs Following ↗ · 2026-06-08 缓存

Google 发布了 Gemma 4 模型，采用量化感知训练 (QAT) 并以 Q4_0 精度托管在 Hugging Face 上，提供从 5B 到 33B 参数的高效变体。

0 人收藏 0 人点赞

#quantization-aware-training

@_philschmid: 更多 Gemma 4！新的 QAT Gemma 4 检查点，性能相似，内存使用减少约 4 倍！它附带了一种新的移动…

X AI KOLs Following ↗ · 2026-06-08 缓存

新的 QAT Gemma 4 检查点提供相似的性能，内存使用减少约 4 倍，通过一种新的移动端量化格式，使 Gemma 4 E2B 的内存占用仅需 1GB。

0 人收藏 0 人点赞

#quantization-aware-training

Gemma 4 QAT模型：为移动和笔记本电脑效率优化压缩

Hacker News Top ↗ · 2026-06-05 缓存

谷歌发布采用量化感知训练（QAT）优化的Gemma 4模型，旨在提升移动和笔记本电脑部署的效率，将E2B模型的内存占用降至1GB，同时保持质量。

0 人收藏 0 人点赞

#quantization-aware-training

google/gemma-4-12B-it-qat-q4_0-gguf

Hugging Face Models Trending ↗ · 2026-06-05 缓存

Google DeepMind 发布了 Gemma 4 模型，这些模型通过量化感知训练（QAT）进行了优化，并提供包括 GGUF 在内的多种格式，在降低内存需求的同时实现了高质量。

0 人收藏 0 人点赞

#quantization-aware-training

面向近无损HiF8 W8A8量化感知训练的最大窗口缩放估计

arXiv cs.LG ↗ · 2026-05-27 缓存

本文系统研究了OpenPangu-Embedded-1B的HiF8 W8A8量化感知训练，识别并解决了amax饱和和灾难性遗忘等失效模式，通过64步最大算法DTS策略和500步BF16预热实现了近无损性能。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈