标签
本文介绍了 SOMA,这是一种高效的 LLM 多轮对话服务框架,它利用经过软提示和 LoRA 微调适配的小语言模型来降低延迟和成本。
本文针对混合和循环大语言模型提出了稀疏前缀缓存方法,该方法在有限的检查点位置存储循环状态,从而避免密集缓存,同时最小化重计算量。在真实数据上,该方法优于标准启发式方法,尤其是在请求共享大量但非完全相同的前缀时。
vLLM v0.20.1 是一个小版本更新,针对这款流行的开源大语言模型推理和服务库,继续保持其高吞吐量和高效内存管理的核心优势。
vLLM v0.20.2rc0 候选版本为 LLM 服务库添加了 shutdown() 方法。
vLLM 发布 0.20.1rc0 版本,在 OpenAI 兼容 API 响应中添加了 system_fingerprint 字段,以优化请求追踪。
研究者提出“预填充即服务”(PrfaaS),将长上下文预填充卸载到远程计算密集型集群,并通过普通以太网流式传输 KVCache,实现独立扩缩容,使 1T 参数混合模型吞吐提升 32–54%。
vLLM v0.19.1 发布 - 一个快速易用的开源 LLM 推理和服务库,拥有业界领先的吞吐量,支持 200+ 个模型架构以及包括 NVIDIA/AMD GPU 和 CPU 在内的多样化硬件。
vLLM v0.19.2rc0 候选版本包含了对 GLM-ASR 模型中 k_proj 偏置处理的错误修复,解决了 LLM 服务框架中的一个特定兼容性问题。
本文介绍了 PagedAttention,这是一种受虚拟内存分页技术启发的算法,以及 vLLM,这是一种通过减少键值缓存中的内存碎片来显著提高大语言模型吞吐量的服务系统。