cuda-kernel

标签

Cards List
#cuda-kernel

@vintcessun: 一直以为AI agent只能写普通代码,没想到MIT HAN Lab直接用agent流程来设计和优化CUDA kernel。手工调耗时又容易漏方案,他们搞了个“任务合约+agent循环+小步验证”的工作流,让Agent自己研究、实现、验证…

X AI KOLs Timeline · 2天前

MIT HAN Lab 提出了一种利用AI agent流程自动设计和优化CUDA kernel的方法,通过任务合约、agent循环和小步验证的工作流,使agent能在专业工具链中自主迭代优化,替代手工调优。

0 人收藏 0 人点赞
#cuda-kernel

@FeitengLi: #面壁智能 开源 #ForgeTrain 由 AI Agent 自主写出的预训练框架,连 CUDA kernel 都是它自己写的。H100 上 MiniCPM4-0.5B 跑到 44% MFU,比 Megatron(NVidia 主推 G…

X AI KOLs Timeline · 2026-05-26 缓存

面壁智能开源了由AI Agent自主编写的预训练框架ForgeTrain,在H100上达到44% MFU,比Megatron-LM高约10%,实现了AI自我进化迭代。

0 人收藏 0 人点赞
#cuda-kernel

@fahdmirza: Luce Megakernel 刚刚证明NVIDIA的效率差距是软件问题而非硬件问题——一台2020年的RTX 3090在220W功耗下…

X AI KOLs Following · 2026-05-15 缓存

Luce Megakernel 证明NVIDIA的效率差距是软件问题,在RTX 3090上相比llama.cpp实现了1.8倍吞吐量,并以更低的成本匹敌Apple M5 Max的效率。

0 人收藏 0 人点赞
#cuda-kernel

BEAM:用于MoE动态路由的二值专家激活掩码

arXiv cs.AI · 2026-05-15 缓存

BEAM通过二值专家激活掩码实现混合专家大语言模型的动态路由,在最小化性能损失的情况下将FLOPs减少高达85%,解码速度提升2.5倍。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈