标签
FastMix 是一个新颖的框架,通过使用单个代理模型和双层优化自动发现训练大型模型的数据混合方式,实现了最先进的性能,并大幅提升效率。
ProxyKV是一种跨模型代理剪枝框架,将重要性评分卸载到轻量级小模型上,以更低的预填充开销实现高精度KV缓存剪枝,在Llama-3.1、Qwen-2.5和Qwen-3系列上匹配KVZip的准确率。