cuda-kernels

标签

Cards List
#cuda-kernels

@hardmaru: 人脑极其高效,因为它只激活特定思维所需的神经元。现代LLM…

X AI KOLs Timeline · 23小时前 缓存

本文介绍了TwELL和Hybrid稀疏格式,配合自定义CUDA内核,有效利用LLM中的非结构化稀疏性,在H100 GPU上实现了训练和推理速度提升超过20%,同时降低了能耗和内存使用。

0 人收藏 0 人点赞
#cuda-kernels

@QingQ77: 用纯 Rust 实现 LLM 推理引擎,针对每种硬件×模型×量化组合定制 CUDA 内核,跑出比 vLLM 和 TensorRT-LLM 更高的推理速度。 https://github.com/Avarok-Cybersecurity/a…

X AI KOLs Timeline · 昨天 缓存

Atlas 是一个纯 Rust 实现的 LLM 推理引擎,通过为每种硬件×模型×量化组合定制 CUDA 内核,实现了比 vLLM 和 TensorRT-LLM 更快的推理速度。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈