标签
一位研究员宣布从Meta FAIR离职,此前两年从事LLM推理工作,并回顾了领导团队的经历。
提出了自剪枝键值注意力(SP-KV),一种通过学习预测键值对未来效用的机制,动态剪枝KV缓存,将内存使用和解码速度提升3-10倍,且性能下降极小。模型和效用预测器通过下一词元预测进行端到端联合训练。
DAIR AI 的每周精选汇总了多项重磅研究论文,包括通过内化并行推理提升模型性能的 HeavySkill,以及利用强化学习优化智能体编排的 Sakana AI Conductor。此外,还涵盖了 Meta FAIR 关于自我改进预训练的研究工作。