@raphaelsrty:在GPU上计算最大相似度(ColBERT、ColPali的评分步骤)可以被优化,这正是@tonywu_71所做的。我……
摘要
Tony Wu发布了late-interaction-kernels (LIK):用于MaxSim的融合Triton内核,MaxSim是ColBERT和ColPali背后的评分步骤,已集成到PyLate和colpali-engine中,提供了内存效率和性能提升。
查看缓存全文
缓存时间: 2026/06/10 15:54
在GPU上计算最大相似度(ColBERT、ColPali的评分步骤)是可以优化的,而@tonywu_71正是这么做的。
该优化功能现已集成到PyLate中,将加速多向量模型的训练和推理。
pip install “pylate[lik]”
太棒了,来自@tonywu_71 和 @Aurelien_L_
Tony Wu (@tonywu_71):
非常激动地发布 late-interaction-kernels(LIK):为MaxSim(ColBERT、ColPali和LateOn背后的评分步骤)融合编写的Triton内核。🚀在内存占用极低的条件下,数值精度与PyTorch完全一致,并已在PyLate和colpali-engine中得到首发支持。(1/N 🧵)
相似文章
在@huggingface上发布我的第一个内核:MaxSim后期交互检索(ColBERT / PyLate)的瓶颈在于材料……
在 Hugging Face 上发布了一个内核,通过使用分块评分和 SIMD 组矩阵运算(Metal 和 WMMA)来加速 MaxSim 后期交互检索,比朴素实现获得了 3–5 倍的加速。
@antoine_chaffin: 无论你是GPU匮乏者还是GPU富裕者,今天发布的PyLate总有一款适合你!GPU追求者:MaxSim内核显著…
PyLate的发布引入了MaxSim内核,用于GPU加速训练,内存需求更低;以及TACHIOM,用于在CPU上实现快速多向量索引和搜索。
@bo_wangbo: 好吧,也许这是个好时机?我们在pplx训练了一个小型colbert模型,它是对pplx-embed-0.6的继续训练…
Perplexity AI发布了pplx-embed-v1-late-0.6b,一个用于检索的小型ColBERT后期交互嵌入模型,基于他们现有的嵌入模型微调并针对MaxSim评分进行了优化,现已在HuggingFace上开源。
@leopardracer: https://x.com/leopardracer/status/2055341758523883631
一位用户分享了他们搭建双GPU本地AI实验室的经验,使用了RTX 4080 Super和5060 Ti,通过llama.cpp和llama-swap运行Qwen 3.6模型,以降低API成本并实现无限制的实验。
2倍 tok/s(在1块MI50上从19.4 tok/s提升到38.1 tok/s)尝试类似推测解码的假设……但不是用额外的侧模型,而是利用我可以同时运行多个计算,就好像内存里加载了两份Qwen3.6-27B一样——小量化不占用所有可用算力。
打包双推理(PTI)是一种通过单批解码中运行多个token序列来实现约2倍LLM吞吐量的技术,它利用了llama.cpp中的权重共享,无需草稿模型或额外VRAM。