标签
本文介绍了 Latent Cache Flow(LCF),一种通过交换压缩后的KV缓存而非文本来实现高效模型间通信的方法,从而减少了适配器大小并实现了跨上下文通信。
本文介绍了 LLiMba,这是一个基于 Qwen2.5 适配而来的3B参数模型,旨在支持撒丁语。该模型在单张消费级 GPU 上通过继续预训练和有监督微调完成训练。文章评估了多种 LoRA 配置,发现适配器容量对低资源语言适配的性能和事实准确性有显著影响。