标签
nbd-vram是一个Linux工具,通过NBD协议和CUDA使用NVIDIA GPU显存作为交换空间,为搭载焊接式内存且无法升级的系统提供额外内存。
一位用户分享了一个技巧:在代理工作流程中使用 Ollama 本地的 llama3.1:8b 模型压缩对话上下文,相较于将上下文发送给提供商,能降低延迟并减少 token 使用量。
llama.cpp的构建9254修复了一个token生成回归问题,并添加了对NVIDIA GPU的PDL(程序化依赖启动)支持,在新硬件上token生成速度提升高达10%。