标签
zml/llmd现已完全在Apple的Metal API上运行,以完整bf16精度服务8个并发请求,并支持连续批处理等现代功能。
作者开源了一个在FPGA上实现的自定义AI加速器(atik),原生支持BF16和注意力机制,展示了在各种模型上相比PyTorch的显著加速效果。
来自 Modal 的 LLM Engineer's Almanac,提供了一个互动探索器,用于理解 bf16 和 fp4 等低精度浮点数格式。