cpu-inference

标签

Cards List
#cpu-inference

我对 PrismML 的 1-bit Bonsai-8B 与 IBM 的 Granite 在 CPU 工具调用上进行了基准测试。1-bit 模型胜出,但仅在语法约束解码下。

Reddit r/LocalLLaMA · 6小时前

对 PrismML 的 1-bit Bonsai-8B 与 IBM 的 Granite 及其他模型在 CPU 工具调用上的独立基准测试显示,在语法约束解码下,Bonsai-8B 的通过率达到 92%,超越了更大的模型,但在无约束条件下失败。Granite 是原始表现最好的模型,通过率为 72%。

0 人收藏 0 人点赞
#cpu-inference

小大脑,大成就:探索紧凑型语言模型

Hugging Face Daily Papers · 3天前 缓存

本文对17个紧凑型语言模型(1B-8B参数)在俄语RAG系统中作为生成器进行了基准测试,仅使用CPU推理,发现Qwen系列模型在私有、无GPU部署中提供了出色的质量-延迟权衡。

0 人收藏 0 人点赞
#cpu-inference

@Oluwaphilemon1: Claude Fable 5 已死,GPT-5.6 推迟发布…微软改变了游戏规则,他们开源了bitnet.cpp,一个1…

X AI KOLs Timeline · 2026-06-22 缓存

微软开源了bitnet.cpp,这是一个1位LLM推理框架,可以在没有GPU的本地CPU上运行100B参数模型,实现6.17倍的更快推理和82.2%的能耗降低。

0 人收藏 0 人点赞
#cpu-inference

我复刻了 ik_llama.cpp 并添加了 "--numa mirror" 模式,以最大化多路 CPU 系统的性能。分享并寻找测试者!

Reddit r/LocalLLaMA · 2026-06-21

一位开发者复刻了 ik_llama.cpp,添加了 '--numa mirror' 模式,该模式在 NUMA 节点间复制模型权重和 KV 缓存,以最大化多路 CPU 推理性能,并分享了基准测试结果,寻求测试者。

0 人收藏 0 人点赞
#cpu-inference

在本地运行GLM 5.x的最便宜方式(不使用统一内存系统)?

Reddit r/LocalLLaMA · 2026-06-17

关于以4位量化运行GLM 5.x及类似大小模型的最廉价本地硬件配置的讨论,包括仅CPU和多GPU选项。一位用户分享了其在5900X + 128GB DDR4 + 7900XT配置上运行Minimax 2.7和Qwen 3.6的经验。

0 人收藏 0 人点赞
#cpu-inference

PSA:测试你在 llama.cpp 中的“线程”参数(我的情况提升了 80% 的性能)

Reddit r/LocalLLaMA · 2026-06-12

一位用户使用 Gemma 4 在 llama.cpp 中针对混合 CPU-GPU 推理进行了线程数基准测试,发现在混合核心 CPU 上使用 16 个线程而非 6 个可提升 80% 的性能,并分享了最佳命令配置。

0 人收藏 0 人点赞
#cpu-inference

运行 gemma-4-26B-A4B 不需要 GPU

Reddit r/LocalLLaMA · 2026-06-07

作者展示了在仅使用 CPU 的系统上,通过 Koboldcpp 高效运行 Gemma-4-26B-A4B 模型,在一台旧台式机上达到了每秒 7 个 token 的速度,这表明运行本地大语言模型推理可能并不需要强大的 GPU。

0 人收藏 0 人点赞
#cpu-inference

基准测试:仅限CPU硬件上Parakeet TDT 0.6B的ONNX Runtime、HF Transformers与GGUF对比 [D]

Reddit r/MachineLearning · 2026-06-05

一项针对仅CPU硬件上Parakeet TDT 0.6B ASR模型的ONNX Runtime、HF Transformers与GGUF的基准测试显示,ONNX Runtime的推理速度比HF Transformers bfloat16快37%,而GGUF则优先考虑内存效率。

0 人收藏 0 人点赞
#cpu-inference

一台10年前的Xeon就够了

Hacker News Top · 2026-06-01 缓存

一篇博客文章,详细介绍了如何仅使用CPU和DDR3内存,在10年前的Xeon服务器上运行Gemma 4 AI模型,并使用了自定义的llama.cpp优化。

0 人收藏 0 人点赞
#cpu-inference

@tunguz:这是一个重要原因。非LLM推理任务的时间只会增加。然而,工具…

X AI KOLs Following · 2026-05-23 缓存

一篇文章指出,现代自主编码中42%的时间用于基于CPU的工具使用,效率低下,这为重新设计面向AI代理的工具提供了巨大机遇。

0 人收藏 0 人点赞
#cpu-inference

@cocktailpeanut:在任何电脑上运行Stable Audio 3,无需VRAM。一键启动官方Stable Audio 3的gradio应用。1. 跨平台…

X AI KOLs Following · 2026-05-21 缓存

Stable Audio 3 的一键启动器允许在任何电脑上运行该模型,无需GPU,包括仅有CPU的系统,并且是跨平台的(Mac、Linux、Windows)。

0 人收藏 0 人点赞
#cpu-inference

本地LLM CPU用户……你们做任何事情要花多长时间?

Reddit r/openclaw · 2026-05-20

关于在CPU上本地运行大语言模型性能的讨论,特别是大上下文尺寸的情况,以及显存限制带来的挑战。

0 人收藏 0 人点赞
#cpu-inference

@FeitengLi: 99M 参数的 TTS 跑在 CPU 上,比 2B 大模型跑在 A100 上还快。 Supertone 新开源的 supertonic-3 ONNX Runtime,完全本地,浏览器能跑,手机能跑,树莓派也能跑。

X AI KOLs Timeline · 2026-05-15 缓存

Supertone released Supertonic 3, an open-source TTS model with 99M parameters that runs faster on CPU than a 2B model on A100, supporting 31 languages and ONNX Runtime for fully local inference.

0 人收藏 0 人点赞
#cpu-inference

ggml-org/llama.cpp

GitHub Trending (daily) · 2026-05-18 缓存

llama.cpp 是一个开源 C/C++ 库,用于在本地硬件上高效运行 LLM 推理,支持多种量化方法和多后端(CPU、GPU 等)。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈