memory-bound

标签

Cards List
#memory-bound

@_avichawla: LLM推理中的预填充与解码。你是否注意到,LLM的第一个令牌总是需要片刻才出现…

X AI KOLs Timeline · 昨天 缓存

解释LLM推理的两个阶段——预填充和解码,详细说明GPU瓶颈如何从预填充时的计算受限转变为解码时的内存受限,以及KV缓存的重要性。

0 人收藏 0 人点赞
#memory-bound

@HanGuo97: LLM训练建立在快速矩阵乘法(MatMuls)之上。但许多周边操作仍然作为内存受限的内核运行。CODA重新参数化……

X AI KOLs Following · 2026-05-21 缓存

CODA将LLM训练中的内存受限操作重新参数化,将其融合到矩阵乘法的epilogue中,从而利用LLM生成的内核实现了接近最先进的性能。

0 人收藏 0 人点赞
#memory-bound

@polydao: 这堂关于AI推理的斯坦福课程比大多数ML课程更能让你了解LLM在生产环境中的运作方式 > Clau…

X AI KOLs Timeline · 2026-05-13

一场关于AI推理的斯坦福讲座强调了KV-cache等实际瓶颈以及推测性解码和连续批处理等技术,比典型ML课程提供更多现实世界的洞察。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈