cuda-kernel

#cuda-kernel

@vintcessun: 一直以为AI agent只能写普通代码，没想到MIT HAN Lab直接用agent流程来设计和优化CUDA kernel。手工调耗时又容易漏方案，他们搞了个“任务合约+agent循环+小步验证”的工作流，让Agent自己研究、实现、验证…

X AI KOLs Timeline ↗ · 2天前

MIT HAN Lab 提出了一种利用AI agent流程自动设计和优化CUDA kernel的方法，通过任务合约、agent循环和小步验证的工作流，使agent能在专业工具链中自主迭代优化，替代手工调优。

0 人收藏 0 人点赞

#cuda-kernel

X AI KOLs Timeline ↗ · 2026-05-26 缓存

面壁智能开源了由AI Agent自主编写的预训练框架ForgeTrain，在H100上达到44% MFU，比Megatron-LM高约10%，实现了AI自我进化迭代。

0 人收藏 0 人点赞

#cuda-kernel

X AI KOLs Following ↗ · 2026-05-15 缓存

Luce Megakernel 证明NVIDIA的效率差距是软件问题，在RTX 3090上相比llama.cpp实现了1.8倍吞吐量，并以更低的成本匹敌Apple M5 Max的效率。

0 人收藏 0 人点赞

#cuda-kernel

arXiv cs.AI ↗ · 2026-05-15 缓存

BEAM通过二值专家激活掩码实现混合专家大语言模型的动态路由，在最小化性能损失的情况下将FLOPs减少高达85%，解码速度提升2.5倍。

0 人收藏 0 人点赞