标签
我们率先通过将稀疏注意力内核移植到 Ada GPU,在 RTX 4090 上运行完整的 GLM-5.2(753B FP8),从而让前沿开放权重模型可在消费级硬件上运行。
一套现成的Docker配置,用于在4块RTX PRO 6000 Blackwell GPU上通过vLLM部署GLM-5.2-NVFP4-REAP-469B模型,包含详细说明和配置选项。
本技术报告介绍了 Kwai Keye-VL-2.0,这是一个开源的混合专家多模态基础模型,专为长视频理解和智能体智能设计,利用 DeepSeek 稀疏注意力机制和跨模态蒸馏技术,在同等规模模型中实现了最先进的性能。