Flash-GMM:一种用于可扩展软聚类的内存高效内核
摘要
Flash-GMM 引入了一个用于高斯混合模型的融合Triton内核,实现了20倍加速,并能在单个GPU上训练比之前大100倍的数据集,使软聚类成为近似最近邻搜索中k-means的可行替代方案。
查看缓存全文
缓存时间: 2026/06/12 10:52
论文页面 - Flash-GMM: 用于可扩展软聚类的内存高效核
来源:https://huggingface.co/papers/2606.10896
摘要
Flash-GMM 引入了一种高效的融合Triton内核,用于高斯混合模型,实现了显著的加速,并能够在单个 GPU 上处理更大的数据集。
我们提出了 Flash-GMM,这是一种融合Triton内核 (https://huggingface.co/papers?q=Triton%20kernel),用于在单次 GPU 遍历中高效计算大规模数据上的高斯混合模型 (https://huggingface.co/papers?q=Gaussian%20Mixture%20Models) (GMM)。通过避免将完整责任矩阵 (https://huggingface.co/papers?q=responsibility%20matrix) 驻留在 GPU 内存中,Flash-GMM 比现有实现实现了 20 倍的加速,并支持在单个设备上训练比以前可行的大 100 倍以上的数据集。为了展示其影响,我们将 Flash-GMM 集成到 IVF 粗量化器 (https://huggingface.co/papers?q=IVF%20coarse%20quantizer) 中,用于近似最近邻 (ANN) 搜索。我们表明,软 GMM 聚类现在可以作为一种可行的替代方案直接替换 k-means (https://huggingface.co/papers?q=k-means),并且可以利用 GMM 责任将边界向量分配到多个聚类。我们的方法在达到固定召回目标时,需要的距离计算 (https://huggingface.co/papers?q=distance%20computations) 最多减少 1.7 倍,或者在相同计算成本下,recall@10 (https://huggingface.co/papers?q=recall%4010) 提高 2-12 个点。我们以开源项目的形式发布了该内核。
查看arXiv页面 (https://arxiv.org/abs/2606.10896)查看PDF (https://arxiv.org/pdf/2606.10896)GitHub11 (https://github.com/IBM/Flash-GMM)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.10896)
在你的代理中获取此论文:
hf papers read 2606\.10896
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.10896 即可从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.10896 即可从此页面链接。
引用此论文的 Space0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.10896 即可从此页面链接。
包含此论文的收藏0
没有收藏包含此论文
将此论文添加到收藏 (https://huggingface.co/new-collection) 即可从此页面链接。
相似文章
@Andy_ShuoYang: Flash-KMeans 只是一个开始。今天,Flash-KMeans 团队发布了 FlashLib——一个用于……的 GPU 库。
Flash-KMeans 团队发布了 FlashLib,这是一个面向经典机器学习算子的 GPU 库,在 Hopper GPU 上相比 cuML 可实现高达 208 倍的加速,专注于为智能体 AI 工作负载提供快速、可预测的性能。
@neural_avb: 深度学习兄弟姐妹们,别错过这个。你可以在嵌入空间中对数百万文档进行聚类,批量注释…
Shuo Yang 及其团队发布了 FlashLib,这是一个 GPU 库,可以加速 KMeans、KNN、HDBSCAN、PCA 和 t-SNE 等经典机器学习算子,声称加速比高达 208 倍。
TideGS:通过外存优化实现超过十亿3D高斯泼溅原语的可扩展训练
TideGS提出了一种外存训练框架,通过块虚拟化、异步流水线和差分流式传输技术,在SSD-CPU-GPU层级管理参数,使得在单个GPU上能够以超过十亿原语进行3D高斯泼溅训练。
@Kimi_Moonshot:我们开源 FlashKDA——基于 CUTLASS 的高性能 Kimi Delta Attention 核实现,预填充速度在 H20 上提升 1.72–2.22 倍
月之暗面开源 FlashKDA,基于 CUTLASS 的 Kimi Delta Attention 核实现,在 H20 GPU 上预填充速度提升 1.72–2.22 倍。
ZipSplat:更少的高斯,更优的 Splats
ZipSplat 是一种基于 token 的前馈 3D 高斯溅射模型,利用 k-means 聚类将高斯放置与像素网格解耦,在无需真实位姿或内参的情况下,在 DL3DV 和 RealEstate10K 上实现了约 6 倍的高斯减少,同时设立了新的最佳结果。