Sipeed的K3 RISC-V单板计算机可运行30B参数大语言模型,提供60 TOPS(INT4)性能,支持BF16/FP16/INT4
摘要
Sipeed新款K3 RISC-V单板计算机配备32GB LPDDR5内存和60 TOPS的NPU,可本地推理大语言模型,速度高达每秒15个token。
https://wccftech.com/sipeed-crams-32gb-lpddr5-60-tops-npu-compact-risc-v-board-hits-15-tokens-s-ai-llms/
相似文章
在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b,~190k 上下文
作者分享了一种高性能的本地推理配置,使用支持 TurboQuant 的修改版 llama.cpp,在硬件受限(8GB 显存、32GB 内存)的情况下运行 Qwen3.6 35B A3B,实现了 ~37-51 tok/sec 的生成速度,并支持 ~190k 上下文。
使用 Intel Optane Persistent Memory 组装的电脑 – 能以超过 4 tokens/秒的速度运行 1 万亿参数模型
一位社区成员详细介绍了这款定制 PC 组装方案,利用已停产的 Intel Optane Persistent Memory,成功通过 llama.cpp 在本地以约 4 tokens/秒的速度运行了 1 万亿参数的 Kimi K2.5 模型。
@iotcoi:Qwen3.6-27B-FP8 + Dflash + DDTree,256k 上下文,10 个智能体,单颗 49W GB10 上峰值 200 tokens/s,平均解码 136 tokens/s
量化版 27B Qwen3.6 在单颗 49W GB10 GPU 上借助 Dflash+DDTree 优化,256k 上下文、10 智能体并发,峰值达 200 tok/s,平均 136 tok/s。
台湾公司Skymizer发布HTX301 - 配备384GB内存、功耗约240瓦的PCIE推理卡
Skymizer发布HTX301,一款能够本地运行700B参数大语言模型、拥有高内存和低功耗的PCIE推理卡。
@QuixiAI:@Kimi_Moonshot K2.6 在我的 mi300x 上跑出了 56 tps(单请求),接下来做吞吐测试
Kimi K2.6 在单张 MI300X GPU 上达到 56 token/s,用户计划进一步测试整体吞吐。