标签
一位开发者复刻了 ik_llama.cpp,添加了 '--numa mirror' 模式,该模式在 NUMA 节点间复制模型权重和 KV 缓存,以最大化多路 CPU 推理性能,并分享了基准测试结果,寻求测试者。