标签
MIT HAN Lab 提出了一种利用AI agent流程自动设计和优化CUDA kernel的方法,通过任务合约、agent循环和小步验证的工作流,使agent能在专业工具链中自主迭代优化,替代手工调优。
面壁智能开源了由AI Agent自主编写的预训练框架ForgeTrain,在H100上达到44% MFU,比Megatron-LM高约10%,实现了AI自我进化迭代。
Luce Megakernel 证明NVIDIA的效率差距是软件问题,在RTX 3090上相比llama.cpp实现了1.8倍吞吐量,并以更低的成本匹敌Apple M5 Max的效率。
BEAM通过二值专家激活掩码实现混合专家大语言模型的动态路由,在最小化性能损失的情况下将FLOPs减少高达85%,解码速度提升2.5倍。