@satvikgari: 唤醒山羊发布了

X AI KOLs Timeline 2026/06/01 16:05 新闻

groq lpu vector-execution hardware ai-inference progress-update

摘要

关于重塑 Groq LPU 的进展更新，重新设计的向量执行模块更好地支持重叠操作和自注意力。

唤醒山羊发布了

查看原文

查看缓存全文

缓存时间: 2026/06/01 19:49

Wake up the goat 发帖：

michael.trbo (@michael_trbo): 关于与 @sakshambatraa 一起重新发明 Groq 的 LPU 的另一个进展更新：

我们重新设计了向量执行模块（VXM），以更好地支持操作重叠，并引入兼容性以运行自注意力！

相似文章

@derangineer: 游戏中的山羊

X AI KOLs Following

Charles Frye 宣布了一篇博客文章，详细介绍了对 FA4 内部结构的贡献，重点在于已上游的推理性能改进。

@levidiamode: GPU编程的第163/365天 - 今天看几个不同的agentic GPU内核优化系统。我最感兴趣的两个是…

X AI KOLs Timeline

一条推文讨论了两种agentic GPU内核优化系统：@dogacel0的Auto GPU Kernel和@songhan_mit实验室的Kernel Design Agents，两者均在MLSys Sparse Attention FlashInfer比赛中获胜。该帖子突出了使用子代理和Claude技能进行GPU编程的不同方法。

从零开始开发开源大语言模型：从预训练到RLHF（PPO/GRPO）

Reddit r/LocalLLaMA

一位开发者分享了从零开始训练一个70亿参数开源大语言模型的进展，该模型基于DeepSeek架构并针对低显存进行了优化，目标是推动AI开发的民主化，并最终超越大型专有模型。

@akshay_pachaar: https://x.com/akshay_pachaar/status/2064700531600458093

X AI KOLs Following

本文介绍了如何使用GRPO微调LLM（Qwen3-8B）以实现可靠的JSON结构化输出，将模式准确率从62%提升至82%，超越了GPT-4.1的58%。

@charles_irl: 重写并行是一项重大举措，如果能比我们用CuTe DSL实现的速度更快就好了。FA4是一个非常…

X AI KOLs Following

关于使用CuTe DSL和瓦片编程模型重写并行性以提升FA4 (FlashAttention 4) 内核性能的讨论。

相似文章

@derangineer: 游戏中的山羊

@levidiamode: GPU编程的第163/365天 - 今天看几个不同的agentic GPU内核优化系统。我最感兴趣的两个是…

从零开始开发开源大语言模型：从预训练到RLHF（PPO/GRPO）

@akshay_pachaar: https://x.com/akshay_pachaar/status/2064700531600458093

@charles_irl: 重写并行是一项重大举措，如果能比我们用CuTe DSL实现的速度更快就好了。FA4是一个非常…

提交意见反馈