标签
对 PrismML 的 1-bit Bonsai-8B 与 IBM 的 Granite 及其他模型在 CPU 工具调用上的独立基准测试显示,在语法约束解码下,Bonsai-8B 的通过率达到 92%,超越了更大的模型,但在无约束条件下失败。Granite 是原始表现最好的模型,通过率为 72%。
本文对17个紧凑型语言模型(1B-8B参数)在俄语RAG系统中作为生成器进行了基准测试,仅使用CPU推理,发现Qwen系列模型在私有、无GPU部署中提供了出色的质量-延迟权衡。
微软开源了bitnet.cpp,这是一个1位LLM推理框架,可以在没有GPU的本地CPU上运行100B参数模型,实现6.17倍的更快推理和82.2%的能耗降低。
一位开发者复刻了 ik_llama.cpp,添加了 '--numa mirror' 模式,该模式在 NUMA 节点间复制模型权重和 KV 缓存,以最大化多路 CPU 推理性能,并分享了基准测试结果,寻求测试者。
关于以4位量化运行GLM 5.x及类似大小模型的最廉价本地硬件配置的讨论,包括仅CPU和多GPU选项。一位用户分享了其在5900X + 128GB DDR4 + 7900XT配置上运行Minimax 2.7和Qwen 3.6的经验。
一位用户使用 Gemma 4 在 llama.cpp 中针对混合 CPU-GPU 推理进行了线程数基准测试,发现在混合核心 CPU 上使用 16 个线程而非 6 个可提升 80% 的性能,并分享了最佳命令配置。
作者展示了在仅使用 CPU 的系统上,通过 Koboldcpp 高效运行 Gemma-4-26B-A4B 模型,在一台旧台式机上达到了每秒 7 个 token 的速度,这表明运行本地大语言模型推理可能并不需要强大的 GPU。
一项针对仅CPU硬件上Parakeet TDT 0.6B ASR模型的ONNX Runtime、HF Transformers与GGUF的基准测试显示,ONNX Runtime的推理速度比HF Transformers bfloat16快37%,而GGUF则优先考虑内存效率。
一篇博客文章,详细介绍了如何仅使用CPU和DDR3内存,在10年前的Xeon服务器上运行Gemma 4 AI模型,并使用了自定义的llama.cpp优化。
一篇文章指出,现代自主编码中42%的时间用于基于CPU的工具使用,效率低下,这为重新设计面向AI代理的工具提供了巨大机遇。
Stable Audio 3 的一键启动器允许在任何电脑上运行该模型,无需GPU,包括仅有CPU的系统,并且是跨平台的(Mac、Linux、Windows)。
关于在CPU上本地运行大语言模型性能的讨论,特别是大上下文尺寸的情况,以及显存限制带来的挑战。
Supertone released Supertonic 3, an open-source TTS model with 99M parameters that runs faster on CPU than a 2B model on A100, supporting 31 languages and ONNX Runtime for fully local inference.
llama.cpp 是一个开源 C/C++ 库,用于在本地硬件上高效运行 LLM 推理,支持多种量化方法和多后端(CPU、GPU 等)。