Sipeed的K3 RISC-V单板计算机可运行30B参数大语言模型，提供60 TOPS（INT4）性能，支持BF16/FP16/INT4

Reddit r/LocalLLaMA 2026/05/13 15:54 产品

risc-v llm npu edge-ai single-board-computer sipeed

摘要

Sipeed新款K3 RISC-V单板计算机配备32GB LPDDR5内存和60 TOPS的NPU，可本地推理大语言模型，速度高达每秒15个token。

https://wccftech.com/sipeed-crams-32gb-lpddr5-60-tops-npu-compact-risc-v-board-hits-15-tokens-s-ai-llms/

查看原文

相似文章

Reddit r/LocalLLaMA

作者分享了一种高性能的本地推理配置，使用支持 TurboQuant 的修改版 llama.cpp，在硬件受限（8GB 显存、32GB 内存）的情况下运行 Qwen3.6 35B A3B，实现了 ~37-51 tok/sec 的生成速度，并支持 ~190k 上下文。

Reddit r/LocalLLaMA

一位社区成员详细介绍了这款定制 PC 组装方案，利用已停产的 Intel Optane Persistent Memory，成功通过 llama.cpp 在本地以约 4 tokens/秒的速度运行了 1 万亿参数的 Kimi K2.5 模型。

X AI KOLs Timeline

量化版 27B Qwen3.6 在单颗 49W GB10 GPU 上借助 Dflash+DDTree 优化，256k 上下文、10 智能体并发，峰值达 200 tok/s，平均 136 tok/s。

Reddit r/LocalLLaMA

Skymizer发布HTX301，一款能够本地运行700B参数大语言模型、拥有高内存和低功耗的PCIE推理卡。

X AI KOLs Following

Kimi K2.6 在单张 MI300X GPU 上达到 56 token/s，用户计划进一步测试整体吞吐。