Flash-GMM：一种用于可扩展软聚类的内存高效内核

Hugging Face Daily Papers 2026/06/09 00:00 论文

摘要

Flash-GMM 引入了一个用于高斯混合模型的融合Triton内核，实现了20倍加速，并能在单个GPU上训练比之前大100倍的数据集，使软聚类成为近似最近邻搜索中k-means的可行替代方案。

我们提出了Flash-GMM，一个融合的Triton内核，用于在单次GPU传递中高效计算大规模数据的高斯混合模型（GMM）。通过避免在GPU内存中实例化完整的责任矩阵，Flash-GMM比现有实现实现了20倍的加速，并能够在单个设备上训练比之前可行的大100倍以上的数据集。为了展示其影响，我们将Flash-GMM集成到IVF粗量化器中用于近似最近邻（ANN）搜索。我们表明，软GMM聚类现在可以替代k-means，并且可以利用GMM责任将边界向量分配给多个簇。我们的方法在固定召回目标下最多可减少1.7倍的距离计算，或者在相同的计算成本下将recall@10提高+2到12。我们将该内核作为开源项目发布。

查看原文

查看缓存全文

缓存时间: 2026/06/12 10:52

论文页面 - Flash-GMM: 用于可扩展软聚类的内存高效核

来源：https://huggingface.co/papers/2606.10896

摘要

Flash-GMM 引入了一种高效的融合Triton内核，用于高斯混合模型，实现了显著的加速，并能够在单个 GPU 上处理更大的数据集。

我们提出了 Flash-GMM，这是一种融合Triton内核 (https://huggingface.co/papers?q=Triton%20kernel)，用于在单次 GPU 遍历中高效计算大规模数据上的高斯混合模型 (https://huggingface.co/papers?q=Gaussian%20Mixture%20Models) (GMM)。通过避免将完整责任矩阵 (https://huggingface.co/papers?q=responsibility%20matrix) 驻留在 GPU 内存中，Flash-GMM 比现有实现实现了 20 倍的加速，并支持在单个设备上训练比以前可行的大 100 倍以上的数据集。为了展示其影响，我们将 Flash-GMM 集成到 IVF 粗量化器 (https://huggingface.co/papers?q=IVF%20coarse%20quantizer) 中，用于近似最近邻 (ANN) 搜索。我们表明，软 GMM 聚类现在可以作为一种可行的替代方案直接替换 k-means (https://huggingface.co/papers?q=k-means)，并且可以利用 GMM 责任将边界向量分配到多个聚类。我们的方法在达到固定召回目标时，需要的距离计算 (https://huggingface.co/papers?q=distance%20computations) 最多减少 1.7 倍，或者在相同计算成本下，recall@10 (https://huggingface.co/papers?q=recall%4010) 提高 2-12 个点。我们以开源项目的形式发布了该内核。

查看arXiv页面 (https://arxiv.org/abs/2606.10896)查看PDF (https://arxiv.org/pdf/2606.10896)GitHub11 (https://github.com/IBM/Flash-GMM)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.10896)

在你的代理中获取此论文：

hf papers read 2606\.10896

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.10896 即可从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.10896 即可从此页面链接。

引用此论文的 Space0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.10896 即可从此页面链接。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到收藏 (https://huggingface.co/new-collection) 即可从此页面链接。

Flash-GMM：一种用于可扩展软聚类的内存高效内核

论文页面 - Flash-GMM: 用于可扩展软聚类的内存高效核

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Space0

包含此论文的收藏0

相似文章

@Andy_ShuoYang: Flash-KMeans 只是一个开始。今天，Flash-KMeans 团队发布了 FlashLib——一个用于……的 GPU 库。

@neural_avb: 深度学习兄弟姐妹们，别错过这个。你可以在嵌入空间中对数百万文档进行聚类，批量注释…

TideGS：通过外存优化实现超过十亿3D高斯泼溅原语的可扩展训练

@Kimi_Moonshot：我们开源 FlashKDA——基于 CUTLASS 的高性能 Kimi Delta Attention 核实现，预填充速度在 H20 上提升 1.72–2.22 倍

ZipSplat：更少的高斯，更优的 Splats

提交意见反馈