cpu-inference

#cpu-inference

我对 PrismML 的 1-bit Bonsai-8B 与 IBM 的 Granite 在 CPU 工具调用上进行了基准测试。1-bit 模型胜出，但仅在语法约束解码下。

Reddit r/LocalLLaMA ↗ · 6小时前

对 PrismML 的 1-bit Bonsai-8B 与 IBM 的 Granite 及其他模型在 CPU 工具调用上的独立基准测试显示，在语法约束解码下，Bonsai-8B 的通过率达到 92%，超越了更大的模型，但在无约束条件下失败。Granite 是原始表现最好的模型，通过率为 72%。

0 人收藏 0 人点赞

#cpu-inference

小大脑，大成就：探索紧凑型语言模型

Hugging Face Daily Papers ↗ · 3天前缓存

本文对17个紧凑型语言模型（1B-8B参数）在俄语RAG系统中作为生成器进行了基准测试，仅使用CPU推理，发现Qwen系列模型在私有、无GPU部署中提供了出色的质量-延迟权衡。

0 人收藏 0 人点赞

#cpu-inference

@Oluwaphilemon1: Claude Fable 5 已死，GPT-5.6 推迟发布…微软改变了游戏规则，他们开源了bitnet.cpp，一个1…

X AI KOLs Timeline ↗ · 2026-06-22 缓存

微软开源了bitnet.cpp，这是一个1位LLM推理框架，可以在没有GPU的本地CPU上运行100B参数模型，实现6.17倍的更快推理和82.2%的能耗降低。

0 人收藏 0 人点赞

#cpu-inference

我复刻了 ik_llama.cpp 并添加了 "--numa mirror" 模式，以最大化多路 CPU 系统的性能。分享并寻找测试者！

Reddit r/LocalLLaMA ↗ · 2026-06-21

一位开发者复刻了 ik_llama.cpp，添加了 '--numa mirror' 模式，该模式在 NUMA 节点间复制模型权重和 KV 缓存，以最大化多路 CPU 推理性能，并分享了基准测试结果，寻求测试者。

0 人收藏 0 人点赞

#cpu-inference

在本地运行GLM 5.x的最便宜方式（不使用统一内存系统）？

Reddit r/LocalLLaMA ↗ · 2026-06-17

关于以4位量化运行GLM 5.x及类似大小模型的最廉价本地硬件配置的讨论，包括仅CPU和多GPU选项。一位用户分享了其在5900X + 128GB DDR4 + 7900XT配置上运行Minimax 2.7和Qwen 3.6的经验。

0 人收藏 0 人点赞

#cpu-inference

PSA：测试你在 llama.cpp 中的“线程”参数（我的情况提升了 80% 的性能）

Reddit r/LocalLLaMA ↗ · 2026-06-12

一位用户使用 Gemma 4 在 llama.cpp 中针对混合 CPU-GPU 推理进行了线程数基准测试，发现在混合核心 CPU 上使用 16 个线程而非 6 个可提升 80% 的性能，并分享了最佳命令配置。

0 人收藏 0 人点赞

#cpu-inference

运行 gemma-4-26B-A4B 不需要 GPU

Reddit r/LocalLLaMA ↗ · 2026-06-07

作者展示了在仅使用 CPU 的系统上，通过 Koboldcpp 高效运行 Gemma-4-26B-A4B 模型，在一台旧台式机上达到了每秒 7 个 token 的速度，这表明运行本地大语言模型推理可能并不需要强大的 GPU。

0 人收藏 0 人点赞

#cpu-inference

基准测试：仅限CPU硬件上Parakeet TDT 0.6B的ONNX Runtime、HF Transformers与GGUF对比 [D]

Reddit r/MachineLearning ↗ · 2026-06-05

一项针对仅CPU硬件上Parakeet TDT 0.6B ASR模型的ONNX Runtime、HF Transformers与GGUF的基准测试显示，ONNX Runtime的推理速度比HF Transformers bfloat16快37%，而GGUF则优先考虑内存效率。

0 人收藏 0 人点赞

#cpu-inference

一台10年前的Xeon就够了

Hacker News Top ↗ · 2026-06-01 缓存

一篇博客文章，详细介绍了如何仅使用CPU和DDR3内存，在10年前的Xeon服务器上运行Gemma 4 AI模型，并使用了自定义的llama.cpp优化。

0 人收藏 0 人点赞

#cpu-inference

@tunguz：这是一个重要原因。非LLM推理任务的时间只会增加。然而，工具…

X AI KOLs Following ↗ · 2026-05-23 缓存

一篇文章指出，现代自主编码中42%的时间用于基于CPU的工具使用，效率低下，这为重新设计面向AI代理的工具提供了巨大机遇。

0 人收藏 0 人点赞

#cpu-inference

@cocktailpeanut：在任何电脑上运行Stable Audio 3，无需VRAM。一键启动官方Stable Audio 3的gradio应用。1. 跨平台…

X AI KOLs Following ↗ · 2026-05-21 缓存

Stable Audio 3 的一键启动器允许在任何电脑上运行该模型，无需GPU，包括仅有CPU的系统，并且是跨平台的（Mac、Linux、Windows）。

0 人收藏 0 人点赞

#cpu-inference

本地LLM CPU用户……你们做任何事情要花多长时间？

Reddit r/openclaw ↗ · 2026-05-20

关于在CPU上本地运行大语言模型性能的讨论，特别是大上下文尺寸的情况，以及显存限制带来的挑战。

0 人收藏 0 人点赞

#cpu-inference

@FeitengLi: 99M 参数的 TTS 跑在 CPU 上，比 2B 大模型跑在 A100 上还快。 Supertone 新开源的 supertonic-3 ONNX Runtime，完全本地，浏览器能跑，手机能跑，树莓派也能跑。

X AI KOLs Timeline ↗ · 2026-05-15 缓存

Supertone released Supertonic 3, an open-source TTS model with 99M parameters that runs faster on CPU than a 2B model on A100, supporting 31 languages and ONNX Runtime for fully local inference.

0 人收藏 0 人点赞

#cpu-inference

ggml-org/llama.cpp

GitHub Trending (daily) ↗ · 2026-05-18 缓存

llama.cpp 是一个开源 C/C++ 库，用于在本地硬件上高效运行 LLM 推理，支持多种量化方法和多后端（CPU、GPU 等）。

0 人收藏 0 人点赞

cpu-inference

提交意见反馈