@charles_irl: 在忙碌中竟然错过了这个。很酷的演示!
摘要
一位开发者使用自建ML框架,基于Rust后端和CUDA内核,包含Flash Attention和AdamW,从零训练了一个1200万参数的LLM。
在忙碌中错过了这个。
很酷的演示!https://t.co/CWsyssqk09
查看缓存全文
缓存时间: 2026/06/08 07:17
不知为何在忙碌中错过了这个。
非常酷的演示!https://t.co/CWsyssqk09
Aadi Kulshrestha (@MankyDankyBanky): 我用自己构建的机器学习框架训练了一个12M参数的LLM,后端基于Rust,并使用了CUDA内核实现Flash Attention、AdamW等。
从头编写了完整的Transformer架构和BPE分词器。
该框架特性包括:
- 自定义CUDA内核(Flash Attention、fused
相似文章
@harshbhatt7585: https://x.com/harshbhatt7585/status/2063593933314113587
作者分享了从头训练一个160M参数大语言模型的经验,尝试了多种架构,如多Token预测和分层推理模型。他强调快速迭代、简化思路以及理解架构有效原因的重要性。
@ivanfioravanti: Apple M5 Max + MLX = 原始算力!看看我正在玩的“FasterLivePortrait-MLX”演示,我从 MPS 开始,但结果不……
作者演示了在搭载 M5 Max 芯片的设备上,将 LivePortrait 的实现从 MPS 迁移到 Apple 的 MLX 框架后,性能和速度有了显著提升。
从零开始在8GB显存上训练LLM。我开心
构建了一个仓库,用于在8GB显存上从零训练一个微型语言模型(25M参数),支持MTP,但指出mHC和BitNet的局限性。
单张 RTX 5080 从头训练 2.35 亿参数 LLM
一位爱好者在单张 RTX 5080 上从头训练出 2.35 亿参数的 LLM,公开完整 PyTorch 流程并开源 Plasma 1.0。
@evanyou: https://x.com/evanyou/status/2060409444123729935
一位开发者分享了一个有趣的案例:在浏览器中运行LLM以检查其内部工作原理,强调了客户端AI的一个有意义场景。