offloading

标签

Cards List
#offloading

将大型模型卸载到系统内存时的性能表现?

Reddit r/LocalLLaMA · 2026-05-24

讨论了将大型AI模型权重从GPU显存卸载到系统内存时的性能权衡,比较了不同GPU配置(如RTX 5090与RTX6000)在运行DeepSeek V4 Pro等模型时的表现。

0 人收藏 0 人点赞
#offloading

寻找关于 llama.cpp 服务器及模型卸载工作原理的阅读资源

Reddit r/LocalLLaMA · 2026-05-22

一位用户分享了他们使用 llama.cpp 服务器进行模型卸载的经验,指出了性能权衡和安静运行的优势,并询问了解该工具如何在 VRAM 和系统 RAM 之间管理内存的阅读资源。

0 人收藏 0 人点赞
#offloading

迈向多模型LLM调度器:关于卸载和抢占的实证洞见

arXiv cs.AI · 2026-05-20

本文对在共享异构硬件上调度多个LLM进行了实证研究,重点关注CPU-GPU卸载和抢占的性能影响。研究发现,卸载会导致非线性的解码吞吐量下降,尤其是对于较小的模型,而抢占开销主要由模型状态重载主导,为未来多模型调度器的设计提供了指导。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈