@__tinygrad__: 我们已凭借AMD MI350X训练Llama 8B登上MLPerf榜单。这基于我们自己的驱动、运行时、内核及训练循环…
摘要
tinygrad宣布,其凭借AMD MI350X硬件训练Llama 8B,在MLPerf基准测试榜单上占据一席之地,采用了自研驱动、运行时、内核及训练循环,并计划进一步优化时间并挑战405B模型。
查看缓存全文
缓存时间: 2026/06/16 21:41
我们正在用AMD MI350X训练Llama 8B,并登上了MLPerf榜单。这是基于我们自研的驱动、运行时、内核和训练循环。下一轮MLPerf将挑战405B模型,同时优化8B的训练时间(tinygrad目前为170分钟)。https://t.co/syPwte872y
相似文章
llama.cpp B9387 重大 AMD/ROCm PP 更新
llama.cpp 版本 b9387 引入了对 AMD CDNA 架构(MI100、MI200、MI300 系列)的 MFMA 支持,提升了数据中心 AMD GPU 上的处理流程性能。
@pupposandro:在 Strix Halo 上比 llama.cpp 快 2.5 倍。我们刚刚为 AMD Ryzen AI MAX+ 395 iGPU(gfx1151,……)发布了 DFlash + PFlash
一套新工具集(DFlash + PFlash)在 AMD Ryzen AI MAX+ 395 iGPU 上实现了比 llama.cpp 快 2.5 倍的推理速度,展示了 Qwen3.6-27B 在 128 GiB 统一内存下的显著加速效果。
为AMD MI300X构建LLM推理的单内核 - 每个请求最高3300输出tokens/秒 [P]
一种针对AMD MI300X GPU上LLM解码的单内核方法,每个请求可达3300输出tokens/秒,无需推测解码或量化,利用映射到芯片拓扑结构的内存访问模式。
在MLX中使用turboquant(及自定义内核)运行Gemma4 26b MoE
一位开发者成功在Apple MacBook Air M5上使用MLX、turboquant和自定义内核运行了Gemma4 26b MoE,实现了比llama.cpp更快的提示处理和生成速度,且内存占用更低。实现方式包括本地部署说明。
@leopardracer: https://x.com/leopardracer/status/2055341758523883631
一位用户分享了他们搭建双GPU本地AI实验室的经验,使用了RTX 4080 Super和5060 Ti,通过llama.cpp和llama-swap运行Qwen 3.6模型,以降低API成本并实现无限制的实验。