@tinygrad: 我们已凭借AMD MI350X训练Llama 8B登上MLPerf榜单。这基于我们自己的驱动、运行时、内核及训练循环…

X AI KOLs Timeline 2026/06/16 16:22 新闻

mlperf benchmark tinygrad amd mi350x llama-8b training

摘要

tinygrad宣布，其凭借AMD MI350X硬件训练Llama 8B，在MLPerf基准测试榜单上占据一席之地，采用了自研驱动、运行时、内核及训练循环，并计划进一步优化时间并挑战405B模型。

我们已凭借AMD MI350X训练Llama 8B登上MLPerf榜单。这基于我们自己的驱动、运行时、内核及训练循环。下一个MLPerf目标为405B，同时提升8B的训练时间（tinygrad目前用时170分钟）。https://t.co/syPwte872y

查看原文

查看缓存全文

缓存时间: 2026/06/16 21:41

我们正在用AMD MI350X训练Llama 8B，并登上了MLPerf榜单。这是基于我们自研的驱动、运行时、内核和训练循环。下一轮MLPerf将挑战405B模型，同时优化8B的训练时间（tinygrad目前为170分钟）。https://t.co/syPwte872y

相似文章

llama.cpp B9387 重大 AMD/ROCm PP 更新

Reddit r/LocalLLaMA

llama.cpp 版本 b9387 引入了对 AMD CDNA 架构（MI100、MI200、MI300 系列）的 MFMA 支持，提升了数据中心 AMD GPU 上的处理流程性能。

@pupposandro：在 Strix Halo 上比 llama.cpp 快 2.5 倍。我们刚刚为 AMD Ryzen AI MAX+ 395 iGPU（gfx1151，……）发布了 DFlash + PFlash

X AI KOLs Following

一套新工具集（DFlash + PFlash）在 AMD Ryzen AI MAX+ 395 iGPU 上实现了比 llama.cpp 快 2.5 倍的推理速度，展示了 Qwen3.6-27B 在 128 GiB 统一内存下的显著加速效果。

为AMD MI300X构建LLM推理的单内核 - 每个请求最高3300输出tokens/秒 [P]

Reddit r/MachineLearning

一种针对AMD MI300X GPU上LLM解码的单内核方法，每个请求可达3300输出tokens/秒，无需推测解码或量化，利用映射到芯片拓扑结构的内存访问模式。

在MLX中使用turboquant（及自定义内核）运行Gemma4 26b MoE

Reddit r/LocalLLaMA

一位开发者成功在Apple MacBook Air M5上使用MLX、turboquant和自定义内核运行了Gemma4 26b MoE，实现了比llama.cpp更快的提示处理和生成速度，且内存占用更低。实现方式包括本地部署说明。

@leopardracer: https://x.com/leopardracer/status/2055341758523883631

X AI KOLs Timeline

一位用户分享了他们搭建双GPU本地AI实验室的经验，使用了RTX 4080 Super和5060 Ti，通过llama.cpp和llama-swap运行Qwen 3.6模型，以降低API成本并实现无限制的实验。

提交意见反馈