标签
本文系统研究了 Transformer 中 QKV 投影共享的各种变体,发现共享键和值投影(Q-K=V)可在仅造成 3.1% 困惑度下降的情况下实现 50% 的 KV 缓存压缩,结合 GQA/MQA 最高可达 96.9% 的缓存压缩率——以极小的质量损失实现实用的端侧推理。
一位开发者经过大量实验,成功在树莓派 5 上以超过1 tok/s的速度运行了284B参数的DeepSeek-V4-Flash模型,使用的是来自 antirez 的未经修改的 GGUF 文件。
一则推文显示,多令牌预测(MTP)在双RTX 5090硬件上为Qwen模型带来了显著的加速,表明本地推理现在可以与云模型性能媲美。
一位开发者使用Jetson Orin NX和Gemma 4 E4B模型打造了一款名为Sparky的完全离线行李箱机器人,实现了约200毫秒的缓存TTFT和14-15 tok/s的处理速度,通过30多个传感器以自然语言形式将数据输入提示词,全程无网络连接。
一位开发者在单颗74W GB10 GPU上,用vLLM同时跑起10个35B参数Qwen3.6模型agent,总吞吐436 tok/s,实现高效边缘部署。