transformer-inference

标签

Cards List
#transformer-inference

@FGuzmanAI: 仅80 MHz下每秒56,000+ tokens。我将完整Transformer(含KV缓存)烧录到定制芯片中。逐门设计……

X AI KOLs Timeline · 3天前 缓存

一款逐门定制的数字芯片,在仅80 MHz频率下运行含KV缓存的Transformer,实现每秒超过56,000 tokens,并在FPGA上完成原型验证。

0 人收藏 0 人点赞
#transformer-inference

@charles_irl: Tried to squeeze the most important bits about the entire stack for cloud deployment of transformer inference, from app…

X AI KOLs Following · 2026-06-10 缓存

本文全面介绍了云端部署 Transformer 推理的完整技术栈,涵盖应用场景、工作负载定义、模型、推理引擎、硬件、可观测性及性能优化,并展望了未来趋势。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈