transformer-inference

#transformer-inference

@FGuzmanAI: 仅80 MHz下每秒56,000+ tokens。我将完整Transformer（含KV缓存）烧录到定制芯片中。逐门设计……

X AI KOLs Timeline ↗ · 3天前缓存

一款逐门定制的数字芯片，在仅80 MHz频率下运行含KV缓存的Transformer，实现每秒超过56,000 tokens，并在FPGA上完成原型验证。

0 人收藏 0 人点赞

#transformer-inference

X AI KOLs Following ↗ · 2026-06-10 缓存

本文全面介绍了云端部署 Transformer 推理的完整技术栈，涵盖应用场景、工作负载定义、模型、推理引擎、硬件、可观测性及性能优化，并展望了未来趋势。

0 人收藏 0 人点赞