gemma-4

标签

Cards List
#gemma-4

@Tono_Ken3: 为gemma-4-12B-coder-fable5-composer2.5-GGUF添加了Q3系列。你可能可以在编码中尝试Fable5(作为教师角色)的精髓……

X AI KOLs Timeline · 2026-06-16 缓存

新的Q3量化版本已添加到gemma-4-12B-coder-fable5-composer2.5 GGUF模型中,通过重要性矩阵量化版本,使得这一专注于编码的微调模型能够在大约6GB显存的GPU上运行。

0 人收藏 0 人点赞
#gemma-4

@zhixianio: 试完了,感觉还挺大跌眼镜的,不知道是不是我打开的方式不对,欢迎大家给出反例。接下来是我测的结果: 在 M5 Max 上,拿这个社区微调版 gemma-4-12B-coder (llama.cpp)对打我日常在用的 Qwen3.6-35B-…

X AI KOLs Timeline · 2026-06-15 缓存

用户测试了社区微调版 gemma-4-12B-coder 与 Qwen3.6-35B-A3B MoE 在三个编程任务上的表现,发现 gemma 在复杂有状态程序上表现不佳,而 Qwen 35B 依然稳健。

0 人收藏 0 人点赞
#gemma-4

更多QAT内容以及毛茸茸的tick

Reddit r/LocalLLaMA · 2026-06-15

作者发布了Gemma 4模型(12B和31B)改进后的GGUF量化版本,采用了更精确的量化感知训练过程,相比原版量化实现了更低的KLD和更高的同top百分比。

0 人收藏 0 人点赞
#gemma-4

编辑单个神经元能否修复LLMs中的重复循环?

arXiv cs.LG · 2026-06-15 缓存

本文研究了通过编辑单个神经元能否修复Gemma 4模型在长序列事实列举任务中的重复循环问题。研究发现,对少量MLP神经元进行有针对性的权重编辑可以显著减少循环故障,但无法完全消除较大模型中的末日循环(doom looping)。

0 人收藏 0 人点赞
#gemma-4

@Tono_Ken3: 我注意到可能有另一个人也意识到,在实际工作中 gemma-4-12b 能够与 qwen3.6-35b 相媲美。是的……

X AI KOLs Timeline · 2026-06-14 缓存

一条推文指出,经过 abliterated 处理、NVFP4 量化的 Gemma-4-12B 模型(7.7 GB)在实际任务中能够与 Qwen 3.6-35B 相媲美,同时在 Blackwell GPU 上运行快速,展现了显著的效率提升。

0 人收藏 0 人点赞
#gemma-4

Gemma 4 12B 原生无编码器语音输入利用建议?

Reddit r/LocalLLaMA · 2026-06-14

讨论利用 Gemma 4 12B 的无编码器架构实现原生语音输入,寻找现成的低延迟流式音频摄入解决方案。

0 人收藏 0 人点赞
#gemma-4

Diffusion Gemma 速度快4倍,但错误多6倍!

Reddit r/LocalLLaMA · 2026-06-12

一项基准测试显示,Diffusion Gemma 比 Gemma4 速度快4倍,但事实性错误多6倍,尤其是在冷门话题上,为了生成流畅文本而牺牲了事实准确性。

0 人收藏 0 人点赞
#gemma-4

如何在macOS上设置本地编码代理

Hacker News Top · 2026-06-12 缓存

一份关于在macOS上使用Gemma 4与MTP草稿模型及llama.cpp设置本地编码代理的详细教程,通过投机解码实现了约24%的速度提升。

0 人收藏 0 人点赞
#gemma-4

@AndreasPSteiner: 上周发布,仅在HuggingFace上就已超过400万次下载。这使得Gemma 4 12B成为最受欢迎的无编码器VLM…

X AI KOLs Timeline · 2026-06-12 缓存

谷歌的Gemma 4 12B模型于上周发布,在HuggingFace上已超过400万次下载,使其成为最受欢迎的无编码器视觉语言模型(VLM),也是首个支持无编码器音频输入的通用大语言模型。该模型在大小和性能之间取得平衡,可在本地笔记本电脑上运行,支持多步推理和智能体工作流。

0 人收藏 0 人点赞
#gemma-4

Open Dungeon:本地角色扮演,使用Gemma 4 QAT + 内嵌Uncen-FLUX图像,在8GB内存下运行完整256K上下文(OS)

Reddit r/LocalLLaMA · 2026-06-12

一款开源的本地AI地牢应用,使用Gemma 4和FLUX进行文本和图像生成,完全私密,运行内存低于8GB。

0 人收藏 0 人点赞
#gemma-4

@googlegemma:实时社交机器人,从云端到您的本地设备。观看我们 DevX 团队的 Ian 使用 Gemini Live 进行无缝…

X AI KOLs Following · 2026-06-12 缓存

Google Gemma 团队演示了在 Reachy Mini 机器人上使用 Gemini Live 的实时社交机器人技术,展示了使用 Gemma 4 进行云端和本地推理的能力。

0 人收藏 0 人点赞
#gemma-4

并非所有 MTP 辅助模型都生而平等

Reddit r/LocalLLaMA · 2026-06-12

关于 llama.cpp 中结合 Gemma 4 模型的 MTP 投机解码的详细技术探索,表明辅助模型的选择和量化对加速效果有显著影响,且并非所有“同名”的辅助模型表现相同。

0 人收藏 0 人点赞
#gemma-4

@amitiitbhu: Gemma 4 现在使用 MTP GGUFs 速度提升2倍!仅需6GB内存即可本地运行。新文章:GGUF如何工作?阅读:htt…

X AI KOLs Timeline · 2026-06-12 缓存

Gemma 4 现在使用 MTP GGUF 格式速度快2倍,且仅需6GB内存即可本地运行。相关文章解释了GGUF的工作原理,包括量化和内存映射。

0 人收藏 0 人点赞
#gemma-4

@Freerunnering: 这实际上使得Gemma 4 26B-4A在我的MacBook Pro M1 Max上以72tk/s的速度可用于编码代理。这个视频是实时的,…

X AI KOLs Timeline · 2026-06-12 缓存

Unsloth AI宣布,Gemma 4在MTP GGUFs上运行速度快了2倍,使得在如MacBook Pro M1 Max这样的硬件上以72 tokens/s的速度运行本地编码代理成为可能。

0 人收藏 0 人点赞
#gemma-4

@VincentLogic: 4.66 GB 的模型,居然在本地跑出了麦肯锡咨询顾问的水平? Unsloth 最新的 2-bit Gemma 4 12B,效果真的炸裂。 这不仅仅是聊天,它直接化身“超级 Agent”自主干活: 自主联网搜索引用 15+ 信源 深度区分…

X AI KOLs Timeline · 2026-06-12 缓存

Unsloth 推出 2-bit 量化的 Gemma 4 12B 模型,仅 4.66GB 可在本地运行,具备自主联网搜索、深度分析等类麦肯锡咨询能力。

0 人收藏 0 人点赞
#gemma-4

Gemma 4 四重发布:12B、12B QAT、26B-A4B QAT 和 31B QAT 无审查异端版

Reddit r/LocalLLaMA · 2026-06-11 缓存

llmfan46 在 Hugging Face 上发布了一组四重未经审查、微调并量化的 Gemma-4 模型,包括 12B、26B-A4B 和 31B 变体,提供 QAT 和 GGUF 格式。

0 人收藏 0 人点赞
#gemma-4

@mervenoyann: DiffusionGemma 已发布,它受计算限制,因此相比其他 Gemma-4 模型快 4 倍(H100 上 1k tok/s),在……方面也很出色

X AI KOLs Following · 2026-06-10 缓存

DiffusionGemma 已发布;它受计算限制,比其它 Gemma-4 模型快 4 倍(H100 上 1k tok/s),擅长编码任务,包括 3D 生成和前端开发。

0 人收藏 0 人点赞
#gemma-4

@leopardracer: GEMMA 4 26B 在 RTX 4060 上运行,拥有 248K Token 上下文窗口,每秒 20 个 Token,上下文窗口大得可以……

X AI KOLs Timeline · 2026-06-10 缓存

Gemma 4 26B 在 RTX 4060 上运行,通过 llama.cpp 和 Q4_K_XL 量化实现 248K Token 上下文和每秒 20 Token 的速度,从而在消费级硬件上本地处理整个代码库。

0 人收藏 0 人点赞
#gemma-4

yuxinlu1/gemma-4-12B-coder-fable5-composer2.5-v1-GGUF

Hugging Face Models Trending · 2026-06-10 缓存

针对代码任务的 Gemma 4 12B 专注微调版本,从思维链数据(Composer 2.5 和 Fable 5)中蒸馏而来,并量化为 GGUF 格式,以在本地离线使用,仅需极低 VRAM 要求

0 人收藏 0 人点赞
#gemma-4

有没有人成功让 Gemma 4 12B(统一音频)在带有大型系统提示时真正关注语音?

Reddit r/LocalLLaMA · 2026-06-10

用户报告称,当系统提示较大(约 21k 个 token)时,Gemma 4 12B 统一音频模型会停止关注语音,并请求变通方法或解释,指出该问题在 vLLM、llama.cpp 和 LiteRT-LM 后端中均存在。

0 人收藏 0 人点赞
← Previous
Next →
← 返回首页

提交意见反馈