flops

#flops

@gordic_aleksa: 新深度博文时刻：Inside the Transformer: The Life of a Token 对现代密集Transformer的深入探讨，我…

X AI KOLs Timeline ↗ · 2026-05-26 缓存

一篇深入探讨现代密集Transformer内部工作原理的博文，涵盖YaRN（位置信息）、混合注意力（实现160k上下文长度）、soft capping、QK归一化，以及Transformer数学（包括FLOPs/Token公式和集群规模估算）。

0 人收藏 0 人点赞