Flash-GMM:一种用于可扩展软聚类的内存高效内核

Hugging Face Daily Papers 论文

摘要

Flash-GMM 引入了一个用于高斯混合模型的融合Triton内核,实现了20倍加速,并能在单个GPU上训练比之前大100倍的数据集,使软聚类成为近似最近邻搜索中k-means的可行替代方案。

我们提出了Flash-GMM,一个融合的Triton内核,用于在单次GPU传递中高效计算大规模数据的高斯混合模型(GMM)。通过避免在GPU内存中实例化完整的责任矩阵,Flash-GMM比现有实现实现了20倍的加速,并能够在单个设备上训练比之前可行的大100倍以上的数据集。为了展示其影响,我们将Flash-GMM集成到IVF粗量化器中用于近似最近邻(ANN)搜索。我们表明,软GMM聚类现在可以替代k-means,并且可以利用GMM责任将边界向量分配给多个簇。我们的方法在固定召回目标下最多可减少1.7倍的距离计算,或者在相同的计算成本下将recall@10提高+2到12。我们将该内核作为开源项目发布。
查看原文
查看缓存全文

缓存时间: 2026/06/12 10:52

论文页面 - Flash-GMM: 用于可扩展软聚类的内存高效核

来源:https://huggingface.co/papers/2606.10896

摘要

Flash-GMM 引入了一种高效的融合Triton内核,用于高斯混合模型,实现了显著的加速,并能够在单个 GPU 上处理更大的数据集。

我们提出了 Flash-GMM,这是一种融合Triton内核 (https://huggingface.co/papers?q=Triton%20kernel),用于在单次 GPU 遍历中高效计算大规模数据上的高斯混合模型 (https://huggingface.co/papers?q=Gaussian%20Mixture%20Models) (GMM)。通过避免将完整责任矩阵 (https://huggingface.co/papers?q=responsibility%20matrix) 驻留在 GPU 内存中,Flash-GMM 比现有实现实现了 20 倍的加速,并支持在单个设备上训练比以前可行的大 100 倍以上的数据集。为了展示其影响,我们将 Flash-GMM 集成到 IVF 粗量化器 (https://huggingface.co/papers?q=IVF%20coarse%20quantizer) 中,用于近似最近邻 (ANN) 搜索。我们表明,软 GMM 聚类现在可以作为一种可行的替代方案直接替换 k-means (https://huggingface.co/papers?q=k-means),并且可以利用 GMM 责任将边界向量分配到多个聚类。我们的方法在达到固定召回目标时,需要的距离计算 (https://huggingface.co/papers?q=distance%20computations) 最多减少 1.7 倍,或者在相同计算成本下,recall@10 (https://huggingface.co/papers?q=recall%4010) 提高 2-12 个点。我们以开源项目的形式发布了该内核。

查看arXiv页面 (https://arxiv.org/abs/2606.10896)查看PDF (https://arxiv.org/pdf/2606.10896)GitHub11 (https://github.com/IBM/Flash-GMM)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.10896)

在你的代理中获取此论文:

hf papers read 2606\.10896

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.10896 即可从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.10896 即可从此页面链接。

引用此论文的 Space0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.10896 即可从此页面链接。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到收藏 (https://huggingface.co/new-collection) 即可从此页面链接。

相似文章

ZipSplat:更少的高斯,更优的 Splats

Hugging Face Daily Papers

ZipSplat 是一种基于 token 的前馈 3D 高斯溅射模型,利用 k-means 聚类将高斯放置与像素网格解耦,在无需真实位姿或内参的情况下,在 DL3DV 和 RealEstate10K 上实现了约 6 倍的高斯减少,同时设立了新的最佳结果。