我制作了一个离线、单文件的GPU构建选择器,用于估算一台设备能运行哪些本地模型以及以多少tok/s的速度运行
摘要
一位开发者创建了一个离线、单文件的GPU构建选择器,用于估算系统能运行哪些本地AI模型以及其token生成速度。
暂无内容
相似文章
@andrewchen:体验本地AI模型的主要缺点在于你会买一块GPU,然后另一块,接着又一块……
Andrew Chen分享了他为本地AI实验购买多块GPU的经历,在5090 eGPU上以100 tok/s运行Qwen3.6 27B密集模型,并将其与Sonnet 4.6进行比较。
打造了一款能准确告诉你哪些LLMs适合你的GPU的工具。欢迎反馈。
一款估算哪些LLMs适合用户GPU内存的工具,根据性能对模型进行排名,同时考虑内存限制和量化级别。
我构建了一个工具,用于在8GB GPU上自动交换VRAM,将小型Prompter和大型Coder串联成一个流水线,避免手动切换模型
作者构建了Prompt-Chain,这是一个Streamlit应用,它将一个小型prompter模型和一个大型coder模型串联起来,并自动交换VRAM,从而在8GB GPU上实现高效的代码生成。
@oliviscusAI: 有人刚刚开发了一款工具,可以准确告诉你哪些大语言模型可以在你的硬件上运行。它会扫描你的内存、CPU 和 GPU……
一款新工具已发布,它通过扫描用户的硬件规格(内存、CPU、GPU)来确定哪些大语言模型可以本地运行,并根据性能指标对这些模型进行排名。
LFM2.5 230M 使用自定义 WebGPU 内核在浏览器中以 1,400 tok/s 运行
LFM2.5 230M 模型使用自定义 WebGPU 内核在浏览器中实现每秒 1,400 个 token,展示了高效的本地推理。