@charles_irl: Tried to squeeze the most important bits about the entire stack for cloud deployment of transformer inference, from app…

X AI KOLs Following 新闻

摘要

本文全面介绍了云端部署 Transformer 推理的完整技术栈,涵盖应用场景、工作负载定义、模型、推理引擎、硬件、可观测性及性能优化,并展望了未来趋势。

Tried to squeeze the most important bits about the entire stack for cloud deployment of transformer inference, from application layer concerns to hardware, debugging, and o11y, into one talk. Had to operate at a very high tok/s! https://t.co/CFlfGyCSOs https://t.co/B8hysXfUiv
查看原文
查看缓存全文

缓存时间: 2026/06/10 07:45

Tried to squeeze the most important bits about the entire stack for cloud deployment of transformer inference, from application layer concerns to hardware, debugging, and o11y, into one talk. Had to operate at a very high tok/s!

https://t.co/CFlfGyCSOs https://t.co/B8hysXfUiv


TL;DR: 本文覆盖了云端部署 Transformer 推理的完整技术栈,从应用场景、工作负载定义,到模型、推理引擎、硬件、可观测性与性能优化,并展望了未来趋势。

为什么推理值得关注

推理通常被视为训练的“小兄弟”,但它在商业上才是真正的营收中心。训练是成本中心,投入资金产出模型,但模型本身难以直接变现。推理则直接服务于用户,产生收入。即使从风投融资,也要求看到收入进展。此外,当前训练也越来越多依赖推理生成输出并与世界互动(如强化学习),消耗的算力可能超过预训练。推理还横跨整个技术栈——应用、线性代数、GPU 模板库(CUTE)、布局代数、电子甚至散热——是全栈工程师可以大展身手的地方。最后,推理需求即将迎来巨大浪潮,对工程师来说是一个重大机遇。

三类语言模型应用原型

推理服务的工程约束取决于应用类型。我将语言模型应用分为三类:

聊天机器人+(Chatbot+)

  • 代表: ChatGPT, Claude Code
  • 特点: 另一端是真人,有人的反应时间、延迟容忍度和兴趣。不仅聊天,还通过文本代表用户与其他计算机系统交互。
  • 工程约束: 低延迟(TTFT 和 token 间隔时间严格),流量波动大。

后台代理(Background Agent)

  • 代表: Devon 编码代理、Resolves S、Ramps Inspect、Open Claw
  • 特点: 用户可能直接生成提示中的许多 token,但通常不等待结果(例如开会时让代理实现功能并开 PR)。延迟约束更宽松,几秒到几小时都可接受。
  • 工程约束: 延迟容忍度高,但可能涉及大量输出 token,需要高吞吐或批量处理。

数据处理(Data Processing)

  • 代表: Reductto 处理平台(为 Jmail 项目索引邮件)
  • 特点: 处理 PDF、文档,从非结构化数据提取结构化信息,下游是存储系统(文件系统、数据库)。
  • 工程约束: 高容量、较高延迟容忍度,但流量突发性强,稀疏写入与密集写入间隔大。

工作负载定义:SLA/SLO 与关键指标

产品开发者与应用工程师靠工作负载定义来交接。服务等级协议(SLA)或服务等级目标(SLO)描述了故障率、性能(速度)和成本。关键指标包括:

  • 每秒查询数(QPS):用户控制,难以预测,有波动性和季节性。平均流量与峰值流量的比率越高,系统服务越困难。
  • 输入 token 数(预填充阶段)输出 token 数(解码阶段):输出长度由模型决定(何时生成结束 token),不是确定的,类似数据库查询性能随数据变化。可估计但难精确。
  • 前缀复用:输入 token 中之前见过的比例。可缓存之前的计算结果(KV 缓存),降低 GPU 计算,但可能增加延迟。在延迟容忍度高时尤其有用(如后台代理、数据处理)。
  • 延迟预算:首 token 时间(TTFT)与每输出 token 时间(token 间隔时间)。TTFT 是返回第一个 token 的时间;token 间隔时间是后续 token 的生成速度。

推理系统的组成部分

服务推理需要以下组件协同工作:

模型

  • 训练好的 transformer 模型(如 LLaMA、GPT 等)。需要导出为适合推理的格式(如 ONNX、TensorRT、静态图)。
  • 模型选择(架构、大小)直接影响推理的 compute 和 memory 需求。

推理引擎

  • 协调模型推理的软件层。常见引擎:vLLM、TensorRT-LLM、TGI(Hugging Face)、llama.cpp(本地部署)等。
  • 引擎负责调度、批处理(动态批处理、continuous batching)、KV 缓存管理、前缀缓存等。
  • 选引擎时要考虑支持的模型、硬件、优化技术(如 FlashAttention、PagedAttention)。

硬件

  • 关键:GPU(NVIDIA A100/H100/B200 等)、TPU、其他加速器。当前推理主力仍是 GPU。
  • 硬件影响 compute 速度(float16/int8/int4 精度)和 memory 带宽(决定 KV 缓存大小和解码速度)。
  • 散热、电源、网络(多节点通信)也是实际考虑。

部署

  • 主要使用云(AWS、GCP、Azure)或自建数据中心。需要配置实例类型、伸缩策略(水平/垂直)、负载均衡。
  • 考虑成本:按需 vs 预留实例 vs 竞价实例。推理引擎可以配合自动缩放来应对流量波动。

可观测性

  • 日志、指标(延迟、吞吐量、GPU 利用率、缓存命中率)、trace。
  • 需要能够定位瓶颈:是计算瓶颈(GPU 计算)、内存瓶颈(KV 缓存溢出)、还是网络瓶颈(跨节点通信)。

性能优化

  • 达到 SLO 或降低成本:降低延迟、提高吞吐量、优化成本。
  • 常用技术:
    • 量化:从 FP16 到 INT8/INT4,降低内存和计算,但可能损失精度。
    • 连续批处理(continuous batching):动态将请求组合进 batch,提高 GPU 利用率。
    • KV 缓存优化:前缀缓存、PagedAttention、KV 缓存压缩/卸载。
    • 投机解码(speculative decoding):用更小的模型预测 token,大模型验证,加速解码。
    • 分布式推理:张量并行(Tensor Parallelism)、流水线并行(Pipeline Parallelism)、序列并行。
    • 模型剪枝/蒸馏:减少参数。

未来思考

  • 推理需求将快速增长,来自专有模型提供商和开源社区的各大组织。
  • 硬件会继续演进:更快的 memory、更大的 HBM、专用推理芯片。
  • 引擎和优化技术会更加自动化,降低全栈工程师的门槛。
  • 成本优化会成为核心竞争力,尤其是对于高频、高延迟容忍度的应用。

Source: https://www.youtube.com/watch?v=ZUdIsRZhWXI

相似文章

@NFTCPS: 天天喊着搞AI,结果你连Transformer是个啥都说不清? 有个仓库够狠,从零手搓一个GPT,不调任何高级库。Attention、多头、前馈、Embedding、残差、Layer Norm,怎么拼起来的全摊给你看。而且不止模型,整条链…

X AI KOLs Timeline

一个GitHub开源项目,从零实现完整的GPT训练流程,包含数据预处理、预训练、SFT和RLHF后训练,全部基于原生PyTorch,适合想深入理解Transformer原理的开发者。