标签
QuixiAI 将 ThunderKittens 移植到了 Metal,从而在 MPS 和 MLX 上实现了内核支持,使得可以在 Mac 上训练模型。
作者描述了如何在 macOS 上使用 Metal、在 Linux 上使用 OpenGL 为 Emacs 构建基于 GPU 的显示后端,从而提升渲染性能并启用视频播放和动画光标等新效果,且无需修改核心重新显示引擎。
将EXL3 LLM编解码器移植到Apple Silicon上通过Metal运行,在M5 Max上实现了高预填充和生成速度(例如,~600 tok/s预填充,不同模型下17-80 tok/s生成)。
zml/llmd现已完全在Apple的Metal API上运行,以完整bf16精度服务8个并发请求,并支持连续批处理等现代功能。
Rigel是对Apple M4 Max GPU上Metal 4.1张量计算路径的经验性表征,揭示了fp8 matmul2d是模拟的(而非硬件加速),该操作完全在GPU着色器核心上执行,没有专用的矩阵数据路径,并重构了不透明的协作张量片段布局。
safetensors 0.8.0 版本带来了重大性能提升:通过 dlpack 直接复制到 Metal MTLBuffers,实现 2-3 倍的加载速度提升,并修复了 macOS 上的 OOM 问题;同时支持无 GIL 序列化,加快多文件保存速度。
GenBench 是一款免费的 iOS 应用,允许用户使用 llama.cpp 和 Metal 在 iPhone/iPad 上下载、运行和基准测试 GGUF 模型,支持离线聊天、标准化基准测试和全球排行榜等功能。
用户分享在Mac上使用llama.cpp配合GGUF Q4_K_M量化版Gemma-4-12b模型的经验,实现了约36 tok/s的本地推理速度和约10GB内存占用。
在 Hugging Face 上发布了一个内核,通过使用分块评分和 SIMD 组矩阵运算(Metal 和 WMMA)来加速 MaxSim 后期交互检索,比朴素实现获得了 3–5 倍的加速。
vllm-swift 0.6.3 和 longctx 0.3.2 版本带来了 triattentionv3,在 Apple Silicon 上支持 256K 上下文;Gemma 4 MTP drafter 支持;带有自动恢复的 Hermes tool calling;以及用于扩展到 12M token 语料的 longctx-svc 守护进程。
Redis creator antirez released ds4, a local inference engine optimized for DeepSeek V4 Flash with 2-bit quantization and support for 1M context KV cache on Metal and CUDA.
Redis 之父 antirez 发布了名为 ds4 的开源项目,是专为 Mac Metal 优化的 DeepSeek V4 Flash 本地推理引擎,支持磁盘 KV 缓存、超长上下文,性能优异。
antirez宣布收到audreyt赠送的M5 Max 128GB MacBook Pro,用于开发DwarfStar4,并在M3 Max和M5 Max硬件上进行分布式推理实验。
antirez 推送了对 DS4 后端的一次重大重构,加入了 CUDA 支持和单方向激活转向,同时保留了 Metal 路径。目前仅支持 M3 和 DGX Spark 硬件。
ds4 是一款专为 Apple Silicon 优化的 DeepSeek V4 Flash 本地原生推理引擎,支持基于磁盘的 KV 缓存持久化和 Metal 加速。