edge-inference

#edge-inference

Transformer 真的需要三个投影矩阵吗？QKV 变体的系统性研究

Hacker News Top ↗ · 昨天缓存

本文系统研究了 Transformer 中 QKV 投影共享的各种变体，发现共享键和值投影（Q-K=V）可在仅造成 3.1% 困惑度下降的情况下实现 50% 的 KV 缓存压缩，结合 GQA/MQA 最高可达 96.9% 的缓存压缩率——以极小的质量损失实现实用的端侧推理。

0 人收藏 0 人点赞

#edge-inference

X AI KOLs Timeline ↗ · 4天前缓存

一位开发者经过大量实验，成功在树莓派 5 上以超过1 tok/s的速度运行了284B参数的DeepSeek-V4-Flash模型，使用的是来自 antirez 的未经修改的 GGUF 文件。

0 人收藏 0 人点赞

#edge-inference

X AI KOLs Following ↗ · 2026-05-20 缓存

一则推文显示，多令牌预测（MTP）在双RTX 5090硬件上为Qwen模型带来了显著的加速，表明本地推理现在可以与云模型性能媲美。

0 人收藏 0 人点赞

#edge-inference

Reddit r/LocalLLaMA ↗ · 2026-05-15

一位开发者使用Jetson Orin NX和Gemma 4 E4B模型打造了一款名为Sparky的完全离线行李箱机器人，实现了约200毫秒的缓存TTFT和14-15 tok/s的处理速度，通过30多个传感器以自然语言形式将数据输入提示词，全程无网络连接。

0 人收藏 0 人点赞

#edge-inference

X AI KOLs Timeline ↗ · 2026-04-22 缓存

一位开发者在单颗74W GB10 GPU上，用vLLM同时跑起10个35B参数Qwen3.6模型agent，总吞吐436 tok/s，实现高效边缘部署。

0 人收藏 0 人点赞