@satvikgari: 唤醒山羊发布了
摘要
关于重塑 Groq LPU 的进展更新,重新设计的向量执行模块更好地支持重叠操作和自注意力。
唤醒山羊发布了
查看缓存全文
缓存时间: 2026/06/01 19:49
Wake up the goat 发帖:
michael.trbo (@michael_trbo): 关于与 @sakshambatraa 一起重新发明 Groq 的 LPU 的另一个进展更新:
我们重新设计了向量执行模块(VXM),以更好地支持操作重叠,并引入兼容性以运行自注意力!
相似文章
@derangineer: 游戏中的山羊
Charles Frye 宣布了一篇博客文章,详细介绍了对 FA4 内部结构的贡献,重点在于已上游的推理性能改进。
@levidiamode: GPU编程的第163/365天 - 今天看几个不同的agentic GPU内核优化系统。我最感兴趣的两个是…
一条推文讨论了两种agentic GPU内核优化系统:@dogacel0的Auto GPU Kernel和@songhan_mit实验室的Kernel Design Agents,两者均在MLSys Sparse Attention FlashInfer比赛中获胜。该帖子突出了使用子代理和Claude技能进行GPU编程的不同方法。
从零开始开发开源大语言模型:从预训练到RLHF(PPO/GRPO)
一位开发者分享了从零开始训练一个70亿参数开源大语言模型的进展,该模型基于DeepSeek架构并针对低显存进行了优化,目标是推动AI开发的民主化,并最终超越大型专有模型。
@akshay_pachaar: https://x.com/akshay_pachaar/status/2064700531600458093
本文介绍了如何使用GRPO微调LLM(Qwen3-8B)以实现可靠的JSON结构化输出,将模式准确率从62%提升至82%,超越了GPT-4.1的58%。
@charles_irl: 重写并行是一项重大举措,如果能比我们用CuTe DSL实现的速度更快就好了。FA4是一个非常…
关于使用CuTe DSL和瓦片编程模型重写并行性以提升FA4 (FlashAttention 4) 内核性能的讨论。