@raphaelsrty：在GPU上计算最大相似度（ColBERT、ColPali的评分步骤）可以被优化，这正是@tonywu_71所做的。我……

X AI KOLs Following 2026/06/10 14:50 工具

multi-vector-models colbert colpali maximum-similarity triton-kernels pylate gpu-optimization

摘要

Tony Wu发布了late-interaction-kernels (LIK)：用于MaxSim的融合Triton内核，MaxSim是ColBERT和ColPali背后的评分步骤，已集成到PyLate和colpali-engine中，提供了内存效率和性能提升。

在GPU上计算最大相似度（ColBERT、ColPali的评分步骤）可以被优化，这正是@tonywu_71所做的。现在它在PyLate中可用，它将加速多向量模型的训练和推理。 pip install "pylate[lik]" 太酷了，来自@tonywu_71和@Aurelien_L_

查看原文

查看缓存全文

缓存时间: 2026/06/10 15:54

在GPU上计算最大相似度（ColBERT、ColPali的评分步骤）是可以优化的，而@tonywu_71正是这么做的。
该优化功能现已集成到PyLate中，将加速多向量模型的训练和推理。

pip install “pylate[lik]”

太棒了，来自@tonywu_71 和 @Aurelien_L_

Tony Wu (@tonywu_71)：
非常激动地发布 late-interaction-kernels（LIK）：为MaxSim（ColBERT、ColPali和LateOn背后的评分步骤）融合编写的Triton内核。🚀

在内存占用极低的条件下，数值精度与PyTorch完全一致，并已在PyLate和colpali-engine中得到首发支持。（1/N 🧵）

相似文章

在@huggingface上发布我的第一个内核：MaxSim后期交互检索（ColBERT / PyLate）的瓶颈在于材料……

X AI KOLs Following

在 Hugging Face 上发布了一个内核，通过使用分块评分和 SIMD 组矩阵运算（Metal 和 WMMA）来加速 MaxSim 后期交互检索，比朴素实现获得了 3–5 倍的加速。

@antoine_chaffin: 无论你是GPU匮乏者还是GPU富裕者，今天发布的PyLate总有一款适合你！GPU追求者：MaxSim内核显著…

X AI KOLs Following

PyLate的发布引入了MaxSim内核，用于GPU加速训练，内存需求更低；以及TACHIOM，用于在CPU上实现快速多向量索引和搜索。

@bo_wangbo: 好吧，也许这是个好时机？我们在pplx训练了一个小型colbert模型，它是对pplx-embed-0.6的继续训练…

X AI KOLs Following

Perplexity AI发布了pplx-embed-v1-late-0.6b，一个用于检索的小型ColBERT后期交互嵌入模型，基于他们现有的嵌入模型微调并针对MaxSim评分进行了优化，现已在HuggingFace上开源。

@leopardracer: https://x.com/leopardracer/status/2055341758523883631

X AI KOLs Timeline

一位用户分享了他们搭建双GPU本地AI实验室的经验，使用了RTX 4080 Super和5060 Ti，通过llama.cpp和llama-swap运行Qwen 3.6模型，以降低API成本并实现无限制的实验。

2倍 tok/s（在1块MI50上从19.4 tok/s提升到38.1 tok/s）尝试类似推测解码的假设……但不是用额外的侧模型，而是利用我可以同时运行多个计算，就好像内存里加载了两份Qwen3.6-27B一样——小量化不占用所有可用算力。

Reddit r/LocalLLaMA

打包双推理（PTI）是一种通过单批解码中运行多个token序列来实现约2倍LLM吞吐量的技术，它利用了llama.cpp中的权重共享，无需草稿模型或额外VRAM。

提交意见反馈