标签
PartRep提出了一种针对仅解码器LLM的选择性提示重复方法,仅追加最有信息量的令牌(通过NLL选择),而非完整提示,从而减少KV缓存和预填充FLOPs,同时在多个基准测试上保留大部分准确率提升。