标签
Chamath 解释了 AI 计算的两个关键阶段:prefill(计算密集型,利于 Nvidia 等并行 GPU)和 decode(内存带宽受限,依赖于扫描已生成的 token)。
Turbo3 在32K上下文下,相比 fp8 解码速度提升了5%(每秒 tokens 数),这是量化或模型优化方面的性能改进。