memory-bound

#memory-bound

@_avichawla: LLM推理中的预填充与解码。你是否注意到，LLM的第一个令牌总是需要片刻才出现…

X AI KOLs Timeline ↗ · 昨天缓存

解释LLM推理的两个阶段——预填充和解码，详细说明GPU瓶颈如何从预填充时的计算受限转变为解码时的内存受限，以及KV缓存的重要性。

0 人收藏 0 人点赞

#memory-bound

X AI KOLs Following ↗ · 2026-05-21 缓存

CODA将LLM训练中的内存受限操作重新参数化，将其融合到矩阵乘法的epilogue中，从而利用LLM生成的内核实现了接近最先进的性能。

0 人收藏 0 人点赞

#memory-bound

X AI KOLs Timeline ↗ · 2026-05-13

一场关于AI推理的斯坦福讲座强调了KV-cache等实际瓶颈以及推测性解码和连续批处理等技术，比典型ML课程提供更多现实世界的洞察。

0 人收藏 0 人点赞