qat

标签

Cards List
#qat

Unsloth Gemma 4 QAT MTP 辅助模型现已可用

Reddit r/LocalLLaMA · 3天前

Unsloth 发布了 Gemma 4 QAT MTP 辅助模型,以 GGUF 文件形式在 Hugging Face 上提供,支持 q8_0 及更大量化格式。

0 人收藏 0 人点赞
#qat

Gemma 4 26B A4B IT QAT 对比

Reddit r/LocalLLaMA · 4天前

一位用户在MMLU_PRO和HumanEval上对Gemma 4 26B IT的三个量化版本(4位、6位和8位QAT)进行了基准测试,发现QAT 8位模型在HumanEval上的表现不如6位量化版本,且并未明显优于4位版本,从而质疑QAT对此模型的优越性。

0 人收藏 0 人点赞
#qat

@_philschmid: 权重:https://huggingface.co/collections/google/gemma-4-qat-q4-0… 博客:https://blog.google/innovation-and-ai/techno…

X AI KOLs Following · 4天前 缓存

Google 发布了 Gemma 4 模型,采用量化感知训练 (QAT) 并以 Q4_0 精度托管在 Hugging Face 上,提供从 5B 到 33B 参数的高效变体。

0 人收藏 0 人点赞
#qat

@_philschmid: 更多 Gemma 4!新的 QAT Gemma 4 检查点,性能相似,内存使用减少约 4 倍!它附带了一种新的移动…

X AI KOLs Following · 4天前 缓存

新的 QAT Gemma 4 检查点提供相似的性能,内存使用减少约 4 倍,通过一种新的移动端量化格式,使 Gemma 4 E2B 的内存占用仅需 1GB。

0 人收藏 0 人点赞
#qat

[3090] Gemma4 QAT + MTP 快速TPS数据 [TLDR 提升1.2-1.8倍]

Reddit r/LocalLLaMA · 4天前

基准测试结果显示,在24GB RTX 3090 GPU上使用QAT和MTP,Gemma 4模型(12B和26B)的每秒token速度提升了1.2-1.8倍。

0 人收藏 0 人点赞
#qat

Gemma 4 12b QAT 对于我的用例来说是一种倒退,尽管热议纷纷.. 不是我的主要推荐

Reddit r/LocalLLaMA · 5天前

作者报告称,与标准 Q5_K_L 版本相比,Gemma 4 12b QAT 模型由于控制令牌配置错误导致的 bug,在工具调用和编码任务上出现了倒退。尽管令牌速度很高,但模型输出不一致,使其不适合代理工作流。

0 人收藏 0 人点赞
#qat

Google的QATs Q4_0比Unsloth的Q4_K_XL具有更高的精度(至少部分如此)

Reddit r/LocalLLaMA · 5天前

技术对比显示,Google的Q4_0量化Gemma-4模型比Unsloth的Q4_K_XL版本具有更高的精度和更多的高精度张量,从而导致文件体积更大。

0 人收藏 0 人点赞
#qat

你对Gemma4 QAT的体验如何?

Reddit r/LocalLLaMA · 5天前

用户分享了使用Gemma4 QAT模型的积极体验,提到质量提升和MTP带来的速度增益,并询问其他人的体验。

0 人收藏 0 人点赞
#qat

2-bit QAT 模型发布

Reddit r/LocalLLaMA · 5天前

关于2位量化感知训练(QAT)在更大规模MoE模型上的潜力的讨论,比较其与4位QAT及三元LLM的性能,并探讨在消费级硬件上的可行性。

0 人收藏 0 人点赞
#qat

MTP 和 QTA 有什么关系?

Reddit r/LocalLLaMA · 5天前

一位用户寻求澄清 llama.cpp 中 MTP(多 token 预测)与 QAT(量化感知训练)之间的关系,特别是关于 Gemma4 模型的 GGUF 兼容性以及文件名中新增的 QAT 字符串。

0 人收藏 0 人点赞
#qat

Gemma4 26B A4B的QAT变体对我来说表现不佳

Reddit r/LocalLLaMA · 5天前

有用户报告称,Gemma4 26B A4B的QAT量化变体在棋盘SVG测试中性能比非QAT版本更差,尽管使用了建议设置,棋子绘制仍不稳定。

0 人收藏 0 人点赞
#qat

在12GB显存上使用Gemma 4 12B QAT MTP实现120 tok/s

Reddit r/LocalLLaMA · 6天前

Google的Gemma 4 12B QAT模型通过llama.cpp的多令牌预测(MTP)在12GB GPU上达到120 tok/s。本文提供分步指南以及无MTP的基准对比,显示速度提升2倍。

0 人收藏 0 人点赞
#qat

对QAT模型使用替代量化有意义吗?[D]

Reddit r/MachineLearning · 6天前

讨论对像Gemma-4这样的量化感知训练(QAT)模型使用替代量化方法是否合理,质疑unsloth的基准测试显示其更接近QAT微调的性能是有益还是适得其反。

0 人收藏 0 人点赞
#qat

Gemma 4 QAT 基准测试结果(AMD 7900 XTX):速度更快,显存占用更少,质量无损

Reddit r/LocalLLaMA · 2026-06-05

一位用户在 AMD 7900 XTX 上对 Google 的 Gemma 4 QAT 模型进行了基准测试,报告显示生成速度提升高达 45%,吞吐量提高 83%,显存占用大幅减少(例如 12B QAT 模型节省 5.7GB),且与标准权重相比质量无损。

0 人收藏 0 人点赞
#qat

unsloth/gemma-4-12B-it-qat-GGUF

Hugging Face Models Trending · 2026-06-05 缓存

Unsloth 发布了Google DeepMind的Gemma 4模型的GGUF量化版本,通过量化感知训练(QAT)优化,在保持质量的同时降低内存需求,支持多种格式和大小,适用于不同的部署场景。

0 人收藏 0 人点赞
#qat

Gemma 4 QAT 确认即将发布!

Reddit r/LocalLLaMA · 2026-06-04

一位 Google Gemma 团队成员证实,Gemma 4 QAT(量化感知训练)模型即将发布,建议用户等待后再测试自己的量化版本。

0 人收藏 0 人点赞
#qat

@spiritbuun: 我的第一个量化模型将在下周发布。我已经为此工作了一个多月。配方已经...

X AI KOLs Following · 2026-06-02 缓存

宣布即将发布使用量化感知训练(QAT)的B27模型量化版本,号称迄今为止最智能的B27。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈