标签
本文介绍了TwELL和Hybrid稀疏格式,配合自定义CUDA内核,有效利用LLM中的非结构化稀疏性,在H100 GPU上实现了训练和推理速度提升超过20%,同时降低了能耗和内存使用。
Skymizer发布HTX301,一款能够本地运行700B参数大语言模型、拥有高内存和低功耗的PCIE推理卡。