metal

#metal

@QuixiAI: QuixiAI/ThunderMittens（从 @HazyResearch 分支）将 ThunderKittens（以及几乎所有其他内容）移植到 Metal。现在可以…

X AI KOLs Following ↗ · 昨天缓存

QuixiAI 将 ThunderKittens 移植到了 Metal，从而在 MPS 和 MLX 上实现了内核支持，使得可以在 Mac 上训练模型。

0 人收藏 0 人点赞

#metal

我为 Emacs 构建了一个 GPU 后端

Hacker News Top ↗ · 2026-06-23 缓存

作者描述了如何在 macOS 上使用 Metal、在 Linux 上使用 OpenGL 为 Emacs 构建基于 GPU 的显示后端，从而提升渲染性能并启用视频播放和动画光标等新效果，且无需修改核心重新显示引擎。

0 人收藏 0 人点赞

#metal

我移植了EXL3使其在Apple Silicon上良好运行 - PonyExl3

Reddit r/LocalLLaMA ↗ · 2026-06-15

将EXL3 LLM编解码器移植到Apple Silicon上通过Metal运行，在M5 Max上实现了高预填充和生成速度（例如，~600 tok/s预填充，不同模型下17-80 tok/s生成）。

0 人收藏 0 人点赞

#metal

@steeve：又是5天后，zml/llmd完全在Metal上运行，以完整bf16精度服务8个并发请求 zml/llmd是我们的大语言模型服务…

X AI KOLs Following ↗ · 2026-06-13 缓存

zml/llmd现已完全在Apple的Metal API上运行，以完整bf16精度服务8个并发请求，并支持连续批处理等现代功能。

0 人收藏 0 人点赞

#metal

Rigel：逆向工程Apple M4 Max GPU上的Metal 4.1张量计算路径

arXiv cs.CL ↗ · 2026-06-12 缓存

Rigel是对Apple M4 Max GPU上Metal 4.1张量计算路径的经验性表征，揭示了fp8 matmul2d是模拟的（而非硬件加速），该操作完全在GPU着色器核心上执行，没有专用的矩阵数据路径，并重构了不透明的协作张量片段布局。

0 人收藏 0 人点赞

#metal

@LucSGeorges: 性能满载版本：safetensors 0.8.0 发布。主要亮点：- 直接复制到 Metal MTLBuffers + 使用 dlpack 实现零拷贝…

X AI KOLs Following ↗ · 2026-06-09 缓存

safetensors 0.8.0 版本带来了重大性能提升：通过 dlpack 直接复制到 Metal MTLBuffers，实现 2-3 倍的加载速度提升，并修复了 macOS 上的 OOM 问题；同时支持无 GIL 序列化，加快多文件保存速度。

0 人收藏 0 人点赞

#metal

我开发了一款 iOS 应用，可以在你的 iPhone/iPad 上对 GGUF 模型进行基准测试

Reddit r/LocalLLaMA ↗ · 2026-06-05

GenBench 是一款免费的 iOS 应用，允许用户使用 llama.cpp 和 Metal 在 iPhone/iPad 上下载、运行和基准测试 GGUF 模型，支持离线聊天、标准化基准测试和全球排行榜等功能。

0 人收藏 0 人点赞

#metal

@mylifcc: 我已经在mac上用上Gemma-4-12b了，技术栈是： llama.cpp + GGUF Q4_K_M + Metal 32K context，本地 OpenAI-compatible API 实测约 36 tok/s，常驻 RSS 约…

X AI KOLs Timeline ↗ · 2026-06-03 缓存

用户分享在Mac上使用llama.cpp配合GGUF Q4_K_M量化版Gemma-4-12b模型的经验，实现了约36 tok/s的本地推理速度和约10GB内存占用。

0 人收藏 0 人点赞

#metal

金属地图

Hacker News Top ↗ · 2026-05-20

一张交互式地图，展示重金属音乐的子流派。

0 人收藏 0 人点赞

#metal

在@huggingface上发布我的第一个内核：MaxSim后期交互检索（ColBERT / PyLate）的瓶颈在于材料……

X AI KOLs Following ↗ · 2026-05-18 缓存

在 Hugging Face 上发布了一个内核，通过使用分块评分和 SIMD 组矩阵运算（Metal 和 WMMA）来加速 MaxSim 后期交互检索，比朴素实现获得了 3–5 倍的加速。

0 人收藏 0 人点赞

#metal

@no_stp_on_snek: vllm-swift 0.6.3 和 longctx 0.3.2 已发布。亮点：triattentionv3 + longctx rescue path 在 Apple Silicon 上达到 256K NIAH…

X AI KOLs Following ↗ · 2026-05-14 缓存

vllm-swift 0.6.3 和 longctx 0.3.2 版本带来了 triattentionv3，在 Apple Silicon 上支持 256K 上下文；Gemma 4 MTP drafter 支持；带有自动恢复的 Hermes tool calling；以及用于扩展到 12M token 语料的 longctx-svc 守护进程。

0 人收藏 0 人点赞

#metal

@axiaisacat: Redis 作者 antirez 又扔了个硬核项目：ds4。不是又一个 GGUF runner，而是专门为 DeepSeek V4 Flash 写的本地推理引擎： Metal / CUDA 2-bit 量化 1M context KV …

X AI KOLs Timeline ↗ · 2026-05-14 缓存

Redis creator antirez released ds4, a local inference engine optimized for DeepSeek V4 Flash with 2-bit quantization and support for 1M context KV cache on Metal and CUDA.

0 人收藏 0 人点赞

#metal

@VincentLogic: 发现个炸裂的开源项目！Redis 之父 antirez 亲自下场搞了个大新闻！ ds4 —— DeepSeek V4 Flash 本地推理引擎，专为 Mac Metal 优化，连续霸榜 GitHub 好几天！最狠的地方来了： 128GB…

X AI KOLs Timeline ↗ · 2026-05-13

Redis 之父 antirez 发布了名为 ds4 的开源项目，是专为 Mac Metal 优化的 DeepSeek V4 Flash 本地推理引擎，支持磁盘 KV 缓存、超长上下文，性能优异。

0 人收藏 0 人点赞

#metal

@antirez: 怀着感激宣布，@audreyt刚刚赠送给我一台M5 Max 128GB MacBook Pro！这将让我能够开发DwarfStar4 (…

X AI KOLs Timeline ↗ · 2026-05-12

antirez宣布收到audreyt赠送的M5 Max 128GB MacBook Pro，用于开发DwarfStar4，并在M3 Max和M5 Max硬件上进行分布式推理实验。

0 人收藏 0 人点赞

#metal

@antirez：我刚刚推送了对 DS4 后端的大规模重构，新增了 CUDA 支持和单方向激活转向。Metal 路径……

X AI KOLs Timeline ↗ · 2026-05-11

antirez 推送了对 DS4 后端的一次重大重构，加入了 CUDA 支持和单方向激活转向，同时保留了 Metal 路径。目前仅支持 M3 和 DGX Spark 硬件。

0 人收藏 0 人点赞

#metal

Metal 上的 DeepSeek V4 Flash 本地推理引擎

Hacker News Top ↗ · 2026-05-07 缓存

ds4 是一款专为 Apple Silicon 优化的 DeepSeek V4 Flash 本地原生推理引擎，支持基于磁盘的 KV 缓存持久化和 Metal 加速。

0 人收藏 0 人点赞

metal

提交意见反馈