ik-llama

#ik-llama

比较 llama.cpp 行/张量分割与 ik_llama 图分割的双GPU推理速度

Reddit r/LocalLLaMA ↗ · 3天前

一位用户使用llama.cpp（行/张量切分）和ik_llama（图切分）在两张RTX 3080 20GB上对双GPU推理速度进行了基准测试，使用Qwen3.6-27B GGUF模型，比较了token生成和提示处理速度。

0 人收藏 0 人点赞