gpu-efficiency

#gpu-efficiency

ModeSwitch-LLM：一种轻量级阶段感知控制器，用于单GPU上的跨模式大语言模型推理

arXiv cs.LG ↗ · 2026-05-25 缓存

ModeSwitch-LLM 是一种轻量级控制器，将大语言模型推理请求路由到单GPU上合适的固定模式（例如FP16、量化、推测解码），在无需重新训练模型的情况下，实现高达2.10倍的延迟加速和51.7%的能耗降低。

0 人收藏 0 人点赞

#gpu-efficiency

X AI KOLs Following ↗ · 2026-05-10

作者推测，如果仅将 MoE 模型的激活参数加载到 GPU 上，将能极大提高运行效率，并允许在本地运行 Kimi 这样的大型模型，尽管作者承认目前这尚不切实际。

0 人收藏 0 人点赞

#gpu-efficiency

X AI KOLs Timeline ↗ · 2026-04-23 缓存

Unsloth开源工具将大模型微调速度提升2-5倍、显存降低80%，使单张RTX 4090几小时完成原本需A100集群的任务。

0 人收藏 0 人点赞