Gemma4_31b_fp8 在我自己的评测框架中与 Sonnet_4.6_medium 持平。
摘要
一位用户报告称,Gemma4_31b 在 FP8 精度下,于自定义评测框架中与 Sonnet_4.6_medium 相当或持平,涉及任务包括 Cypher 查询生成、实体抽取、智能体工具调用、代码编写以及多向量检索合成。
https://preview.redd.it/9t0qvx6k5z5h1.png?width=1400&format=png&auto=webp&s=88dd83cdd6aa484dcf102bf078f7a80bebb4f7a2
* 用于图遍历的 Cypher 查询(neo4j)
* 从文本块中提取实体(网页查询、图查询、向量)
* 智能体工具调用(技能选择/在 Pi 中成功运行)
* 代码编写(Python)
* 多向量检索的合成/摘要(Gemma/Qwen 在 FP8 下)
这让我很开心
相似文章
Gemma 4 31B 的能力让我惊讶
一位用户分享了轶事发现:Gemma 4 31B 在理解和重构杂乱的学术代码方面优于 Qwen 3.6 模型,并与 Opus 4.7 能力相当,还突出了一个 Gemma 擅长的基准测试(SciCode)。
Gemma 4 12B 是我的新主力
作者分享了从 Qwen 3.6 切换到 Gemma 4 12B(Unsloth Q5_K_XL)进行本地编程的体验,称赞其即插即用的设置、更好的语法准确性以及可控的 VRAM 使用,尽管在速度上略有取舍。
yuxinlu1/gemma-4-12B-agentic-fable5-composer2.5-v2-3.5x-tau2-GGUF
Gemma-4-12B 的微调版本,针对本地编码和智能体任务进行了优化,在 tau2-bench 电信基准测试上相较基础模型实现了约 3.5 倍的性能提升。
@leopardracer: GEMMA 4 26B 在 RTX 4060 上运行,拥有 248K Token 上下文窗口,每秒 20 个 Token,上下文窗口大得可以……
Gemma 4 26B 在 RTX 4060 上运行,通过 llama.cpp 和 Q4_K_XL 量化实现 248K Token 上下文和每秒 20 Token 的速度,从而在消费级硬件上本地处理整个代码库。
yuxinlu1/gemma-4-12B-coder-fable5-composer2.5-v1-GGUF
针对代码任务的 Gemma 4 12B 专注微调版本,从思维链数据(Composer 2.5 和 Fable 5)中蒸馏而来,并量化为 GGUF 格式,以在本地离线使用,仅需极低 VRAM 要求