gpu-efficiency

标签

Cards List
#gpu-efficiency

ModeSwitch-LLM:一种轻量级阶段感知控制器,用于单GPU上的跨模式大语言模型推理

arXiv cs.LG · 2026-05-25 缓存

ModeSwitch-LLM 是一种轻量级控制器,将大语言模型推理请求路由到单GPU上合适的固定模式(例如FP16、量化、推测解码),在无需重新训练模型的情况下,实现高达2.10倍的延迟加速和51.7%的能耗降低。

0 人收藏 0 人点赞
#gpu-efficiency

@jun_song: 如果我们能弄清楚如何将 MoE 模型中仅激活的参数加载到 GPU 中,而不是加载全部权重,那将是颠覆性的……

X AI KOLs Following · 2026-05-10

作者推测,如果仅将 MoE 模型的激活参数加载到 GPU 上,将能极大提高运行效率,并允许在本地运行 Kimi 这样的大型模型,尽管作者承认目前这尚不切实际。

0 人收藏 0 人点赞
#gpu-efficiency

@AI_jacksaku: GitHub本周黑马:Unsloth AI模型训练速度提升2-5倍, 显存占用减少80%。 这意味着什么? 以前微调一个大模型, 需要A100集群+几万美金。 现在一张4090, 几小时就能搞定。 Unsloth做了什么? 优化了注意力机…

X AI KOLs Timeline · 2026-04-23 缓存

Unsloth开源工具将大模型微调速度提升2-5倍、显存降低80%,使单张RTX 4090几小时完成原本需A100集群的任务。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈