标签
本文解释了非统一内存访问(NUMA)的概念、历史背景以及它在多插槽服务器上对性能的影响,同时介绍了Edera在使基于Xen的虚拟化实现端到端NUMA感知方面所做的工作。
一位开发者复刻了 ik_llama.cpp,添加了 '--numa mirror' 模式,该模式在 NUMA 节点间复制模型权重和 KV 缓存,以最大化多路 CPU 推理性能,并分享了基准测试结果,寻求测试者。