标签
Tony Wu发布了late-interaction-kernels (LIK):用于MaxSim的融合Triton内核,MaxSim是ColBERT和ColPali背后的评分步骤,已集成到PyLate和colpali-engine中,提供了内存效率和性能提升。
Wall Attention 是一种新的注意力变体,具有每个通道、每个时间步的乘法衰减,提供内容相关的遗忘率,以及在Triton中实现的高效训练/解码内核。
技术解析:对比 PyTorch 默认的 autograd 与 UnslothAI 使用 OpenAI Triton 语言编写的自定义反向传播内核,以实现更高效的 LLM 微调。