针对短时LLM运行的云GPU存储费用高昂。你的工作流程是怎样的?

Reddit r/AI_Agents 工具

摘要

用户寻求针对短时LLM测试会话的成本效益云GPU工作流程建议,强调在运行之间保留环境时存储费用是主要痛点。

我正尝试通过Cline/llama.cpp测试Qwen3.6-27B进行代理式编码,但一旦上下文变长,我的本地机器就力不从心了(我那可怜的3080实在跟不上)。令人头疼的不是单纯的GPU价格。我每天只需要一台4090/L40S级别的机器大约2-3小时,但我不想每次都重建整个环境或重新下载模型权重。例如,保留一个已停止的卷可能会产生大量费用,而且在某些市场平台主机上,存储似乎过分绑定到特定物理机器。我不是进行长时间的训练,只是这些短时的迭代测试,需要模型、缓存和环境在会话之间保留而不被存储费用压垮。那么大家都在用什么方案呢?比起绝对最低的每小时成本,我更关心可预测的计费和一种方便的重复使用快照/存储的方式。
查看原文

相似文章