inference-tuning

#inference-tuning

llama.cpp - 如何在GPU上释放更多空间

Reddit r/LocalLLaMA ↗ · 昨天

一则讨论如何在llama.cpp中释放GPU内存实用技巧的帖子，例如将mmproj卸载到CPU、调整KV缓存类型，同时讨论了--cache-type-k/v和--spec-draft-n-max等参数。

0 人收藏 0 人点赞