inference-tuning

标签

Cards List
#inference-tuning

llama.cpp - 如何在GPU上释放更多空间

Reddit r/LocalLLaMA · 昨天

一则讨论如何在llama.cpp中释放GPU内存实用技巧的帖子,例如将mmproj卸载到CPU、调整KV缓存类型,同时讨论了--cache-type-k/v和--spec-draft-n-max等参数。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈