@charles_irl: 在忙碌中竟然错过了这个。很酷的演示！

X AI KOLs Following 2026/06/07 20:48 工具

machine-learning llm rust cuda framework training demo

摘要

一位开发者使用自建ML框架，基于Rust后端和CUDA内核，包含Flash Attention和AdamW，从零训练了一个1200万参数的LLM。

在忙碌中错过了这个。很酷的演示！https://t.co/CWsyssqk09

查看原文

查看缓存全文

缓存时间: 2026/06/08 07:17

不知为何在忙碌中错过了这个。

非常酷的演示！https://t.co/CWsyssqk09

Aadi Kulshrestha (@MankyDankyBanky): 我用自己构建的机器学习框架训练了一个12M参数的LLM，后端基于Rust，并使用了CUDA内核实现Flash Attention、AdamW等。

从头编写了完整的Transformer架构和BPE分词器。

该框架特性包括：

自定义CUDA内核（Flash Attention、fused

相似文章

@h100envy: 构建了NVIDIA TensorRT-LLM内核的CMU博士用68分钟讲解快速注意力——比1200美元的GPU课程更胜一筹

X AI KOLs Timeline

一位开发了NVIDIA现用于TensorRT-LLM的内核的CMU博士讲解了快速注意力，内容涵盖融合CUDA内核、FlashInfer、Triton和分页KV注意力，使同一GPU每秒能处理更多token。

@no_stp_on_snek: 我的第二个且迟交的 Build Small 参赛作品。10天，1位开发者：从头构建的 Rust 引擎 + 自定义 GPU 内核 vs vLLM 在 N…

X AI KOLs Following

一位开发者从头构建了一个 Rust 推理引擎，带有自定义 GPU 内核，在 Nemotron-30B 解码上优于 vLLM，达到 75.7 vs 57 tok/s，提交至 Build Small 黑客马拉松。

@ekzhang1：我看着像这个家伙一样写真正的GPU内核的人 :)

X AI KOLs Timeline

AI模型Claude被用于使用pyptx DSL编写FlashAttention前向内核，在NVIDIA B200硬件上实现了与手工调优的FlashAttention-4近乎相同的性能。

@levidiamode: GPU编程第157/365天：另一个对我非常有帮助的FlashAttention4资源是@charles_irl的演讲…

X AI KOLs Following

一个每日GPU编程帖子重点介绍了Charles_irl的演讲，该演讲在论文发布前逆向工程了FlashAttention4代码，并赞扬了Modal团队对代码的深入剖析和对前向传播的合理推断。

@charles_irl: 去年秋天，我们分享了关于FA4内部机制的深度分析。但我们并未止步于理解内核。自那时起，我们一直在…

X AI KOLs Following

一篇博客文章详细介绍了对FlashAttention-4的贡献，通过调整并行策略和支持不规则内存访问，以提升其在大型语言模型推理中的性能，特别是针对解码密集型工作负载。

相似文章

@h100envy: 构建了NVIDIA TensorRT-LLM内核的CMU博士用68分钟讲解快速注意力——比1200美元的GPU课程更胜一筹

@no_stp_on_snek: 我的第二个且迟交的 Build Small 参赛作品。10天，1位开发者：从头构建的 Rust 引擎 + 自定义 GPU 内核 vs vLLM 在 N…

@ekzhang1：我看着像这个家伙一样写真正的GPU内核的人 :)

@levidiamode: GPU编程第157/365天：另一个对我非常有帮助的FlashAttention4资源是@charles_irl的演讲…

@charles_irl: 去年秋天，我们分享了关于FA4内部机制的深度分析。但我们并未止步于理解内核。自那时起，我们一直在…

提交意见反馈