标签
ModeSwitch-LLM 是一种轻量级控制器,将大语言模型推理请求路由到单GPU上合适的固定模式(例如FP16、量化、推测解码),在无需重新训练模型的情况下,实现高达2.10倍的延迟加速和51.7%的能耗降低。
作者推测,如果仅将 MoE 模型的激活参数加载到 GPU 上,将能极大提高运行效率,并允许在本地运行 Kimi 这样的大型模型,尽管作者承认目前这尚不切实际。
Unsloth开源工具将大模型微调速度提升2-5倍、显存降低80%,使单张RTX 4090几小时完成原本需A100集群的任务。