airllm

标签

#airllm

@NFTCPS: 4GB显存跑70B大模型？这事儿真成了！ AirLLM玩了个骚操作——分层推理，不一次性把模型怼进显存，而是一层层加载、算完就扔，硬生生把巨无霸塞进小破卡。最骚的是：100%开源，白嫖警告 https://github.com/0xSo…

X AI KOLs Timeline ↗ · 昨天缓存

AirLLM 是一个完全开源的工具，通过分层推理技术（逐层加载并立即释放显存），使得 70B 大语言模型可在仅 4GB 显存的 GPU 上运行，无需量化、蒸馏或剪枝，并已支持 Llama3.1 405B 在 8GB 显存上运行。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈