deepseek-sparse-attention

#deepseek-sparse-attention

@totheagi: 我们率先让完整的GLM-5.2 (FP8) 运行在 RTX 4090 上。GLM-5.2 是新的 753B 参数 SOTA 开放权重模型，并且…

X AI KOLs Timeline ↗ · 3天前缓存

我们率先通过将稀疏注意力内核移植到 Ada GPU，在 RTX 4090 上运行完整的 GLM-5.2（753B FP8），从而让前沿开放权重模型可在消费级硬件上运行。

0 人收藏 0 人点赞

#deepseek-sparse-attention

X AI KOLs Following ↗ · 3天前缓存

一套现成的Docker配置，用于在4块RTX PRO 6000 Blackwell GPU上通过vLLM部署GLM-5.2-NVFP4-REAP-469B模型，包含详细说明和配置选项。

0 人收藏 0 人点赞

#deepseek-sparse-attention

Hugging Face Daily Papers ↗ · 2026-06-09 缓存

本技术报告介绍了 Kwai Keye-VL-2.0，这是一个开源的混合专家多模态基础模型，专为长视频理解和智能体智能设计，利用 DeepSeek 稀疏注意力机制和跨模态蒸馏技术，在同等规模模型中实现了最先进的性能。

0 人收藏 0 人点赞