标签
SKIM是一个自适应多分辨率软令牌压缩框架,用于压缩面向LLM的程序性技能,在降低预填充成本和延迟的同时保持任务性能。
AdaPLD是一种无需训练的方法,通过自适应检索结合词汇与语义相似度,并构建分支复用假设来处理续写不确定性,从而提升无模型推测解码的效率,最高可实现3.10倍解码加速。
本文介绍了 CosmicFish-HRM,这是一个紧凑的 8277 万参数语言模型,配备层级推理模块,在推理过程中动态分配推理计算资源,并根据输入复杂度学习何时停止。
提出CIST方法,在知识蒸馏中为教师和学生分配独立的样本自适应温度,生成一致性信息丰富的软标签,并放宽严格的logit尺度匹配。在视觉和语言任务上的实验表明,相比标准KD具有一致的改进。
一种针对LLM前缀缓存的新型语义自适应驱逐策略,学习不同令牌类型间的令牌重用模式,相比现有策略实现了1.4倍至2.7倍的TTFT提升。