Deepseek 发布 DeepEP V2 与 TileKernels
摘要
Deepseek 开源 DeepEP V2 与 TileKernels,两套全新的 GPU 内核库,用于加速 AI 工作负载。
[https://github.com/deepseek-ai/DeepEP/pull/605](https://github.com/deepseek-ai/DeepEP/pull/605) [https://github.com/deepseek-ai/TileKernels](https://github.com/deepseek-ai/TileKernels)
相似文章
deepseek-ai/DeepGEMM
# deepseek-ai/DeepGEMM 来源:[https://github.com/deepseek-ai/DeepGEMM](https://github.com/deepseek-ai/DeepGEMM) # DeepGEMM DeepGEMM 是一个统一的高性能张量核心内核库,整合了现代大语言模型的关键计算原语——GEMM(FP8、FP4、BF16)、带通信重叠的融合 MoE(Mega MoE)、闪电索引器的 MQA 评分、超连接(HC)等——形成一个统一的 CUDA 代码库。所有内核均在运行时编译
deepseek-ai/DeepSeek-V4-Flash
DeepSeek 发布 DeepSeek-V4-Flash 和 DeepSeek-V4-Pro,新一代 MoE 语言模型,支持 100 万 token 上下文,效率和性能均有提升。
deepseek-ai/DeepSeek-V4-Pro
DeepSeek 发布了 V4-Pro 和 V4-Flash,这些混合专家模型采用混合注意力机制和 Muon 优化器,支持百万 token 级上下文。
Metal 上的 DeepSeek V4 Flash 本地推理引擎
ds4 是一款专为 Apple Silicon 优化的 DeepSeek V4 Flash 本地原生推理引擎,支持基于磁盘的 KV 缓存持久化和 Metal 加速。
Moonshot 开源 FlashKDA:面向 Kimi Delta Attention 的 CUTLASS 内核,H20 上最高比 Triton 基线快 2.22 倍
MoonshotAI 发布 FlashKDA,开源 CUTLASS 内核实现 Kimi Delta Attention,在 H20 GPU 上相较 Triton 最高提速 2.22 倍。