标签
KDA是一个由智能体驱动的内核设计框架,通过最小化人工参与,帮助HAN Lab在MLSys FlashInfer Kernel Contest中获得顶尖排名。该智能体利用Humanize、KernelWiki和性能分析技能来生成最先进的内核。
这篇评论文章认为,由于根本性的硬件差异,AI内核在不同硬件(TPU、GPU等)上的可移植性在结构上是不可能的,并且尽管业界渴望可移植性,但最好的AI堆栈始终需要特定于硬件的DSL才能获得最佳性能。