我制作了一个离线、单文件的GPU构建选择器，用于估算一台设备能运行哪些本地模型以及以多少tok/s的速度运行

Reddit r/LocalLLaMA 2026/06/27 11:50 工具

gpu build-picker local-models offline single-file estimation token-speed

摘要

一位开发者创建了一个离线、单文件的GPU构建选择器，用于估算系统能运行哪些本地AI模型以及其token生成速度。

暂无内容

查看原文

相似文章

X AI KOLs Following

Andrew Chen分享了他为本地AI实验购买多块GPU的经历，在5090 eGPU上以100 tok/s运行Qwen3.6 27B密集模型，并将其与Sonnet 4.6进行比较。

Reddit r/LocalLLaMA

一款估算哪些LLMs适合用户GPU内存的工具，根据性能对模型进行排名，同时考虑内存限制和量化级别。

Reddit r/LocalLLaMA

作者构建了Prompt-Chain，这是一个Streamlit应用，它将一个小型prompter模型和一个大型coder模型串联起来，并自动交换VRAM，从而在8GB GPU上实现高效的代码生成。

X AI KOLs Timeline

一款新工具已发布，它通过扫描用户的硬件规格（内存、CPU、GPU）来确定哪些大语言模型可以本地运行，并根据性能指标对这些模型进行排名。

Reddit r/LocalLLaMA

LFM2.5 230M 模型使用自定义 WebGPU 内核在浏览器中实现每秒 1,400 个 token，展示了高效的本地推理。