k-quants

Tag

#k-quants

ggml-webgpu: Improve prefill speeds for k-quants + refactor matmul for Q4/Q5/Q8 and k-quants by yomaytk · Pull Request #24225 · ggml-org/llama.cpp

Reddit r/LocalLLaMA ↗ · 2026-06-09 Cached

Improves prefill speeds for k-quants and refactors matrix multiplication for Q4/Q5/Q8 and k-quants in llama.cpp's WebGPU backend.

0 favorites 0 likes

← Back to home

Submit Feedback