edge-inference

标签

Cards List
#edge-inference

Transformer 真的需要三个投影矩阵吗?QKV 变体的系统性研究

Hacker News Top · 昨天 缓存

本文系统研究了 Transformer 中 QKV 投影共享的各种变体,发现共享键和值投影(Q-K=V)可在仅造成 3.1% 困惑度下降的情况下实现 50% 的 KV 缓存压缩,结合 GQA/MQA 最高可达 96.9% 的缓存压缩率——以极小的质量损失实现实用的端侧推理。

0 人收藏 0 人点赞
#edge-inference

@danveloper: 简直不敢相信,我竟然在树莓派 5(8GB 版)上以超过1 tok/s的速度运行了 DeepSeek-V4-Flash(284B 参数)……

X AI KOLs Timeline · 4天前 缓存

一位开发者经过大量实验,成功在树莓派 5 上以超过1 tok/s的速度运行了284B参数的DeepSeek-V4-Flash模型,使用的是来自 antirez 的未经修改的 GGUF 文件。

0 人收藏 0 人点赞
#edge-inference

@danyurkin: 我不再需要云模型了

X AI KOLs Following · 2026-05-20 缓存

一则推文显示,多令牌预测(MTP)在双RTX 5090硬件上为Qwen模型带来了显著的加速,表明本地推理现在可以与云模型性能媲美。

0 人收藏 0 人点赞
#edge-inference

基于Jetson Orin NX SUPER 16GB打造了一款完全离线运行的行李箱机器人。使用Gemma 4 E4B模型,缓存TTFT约200毫秒,搭载30多个传感器,无WiFi/蓝牙/蜂窝网络连接。它有自己的想法。

Reddit r/LocalLLaMA · 2026-05-15

一位开发者使用Jetson Orin NX和Gemma 4 E4B模型打造了一款名为Sparky的完全离线行李箱机器人,实现了约200毫秒的缓存TTFT和14-15 tok/s的处理速度,通过30多个传感器以自然语言形式将数据输入提示词,全程无网络连接。

0 人收藏 0 人点赞
#edge-inference

@iotcoi:在小小的GB10 GPU上跑通Google cookbook,10个agent并发,436 tok/s,每agent 43.6 tok/s,Qwen3.6-35B + Dflash + DDTree,vLLM GB10仅74W

X AI KOLs Timeline · 2026-04-22 缓存

一位开发者在单颗74W GB10 GPU上,用vLLM同时跑起10个35B参数Qwen3.6模型agent,总吞吐436 tok/s,实现高效边缘部署。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈