metal

标签

Cards List
#metal

@QuixiAI: QuixiAI/ThunderMittens(从 @HazyResearch 分支)将 ThunderKittens(以及几乎所有其他内容)移植到 Metal。现在可以…

X AI KOLs Following · 昨天 缓存

QuixiAI 将 ThunderKittens 移植到了 Metal,从而在 MPS 和 MLX 上实现了内核支持,使得可以在 Mac 上训练模型。

0 人收藏 0 人点赞
#metal

我为 Emacs 构建了一个 GPU 后端

Hacker News Top · 2026-06-23 缓存

作者描述了如何在 macOS 上使用 Metal、在 Linux 上使用 OpenGL 为 Emacs 构建基于 GPU 的显示后端,从而提升渲染性能并启用视频播放和动画光标等新效果,且无需修改核心重新显示引擎。

0 人收藏 0 人点赞
#metal

我移植了EXL3使其在Apple Silicon上良好运行 - PonyExl3

Reddit r/LocalLLaMA · 2026-06-15

将EXL3 LLM编解码器移植到Apple Silicon上通过Metal运行,在M5 Max上实现了高预填充和生成速度(例如,~600 tok/s预填充,不同模型下17-80 tok/s生成)。

0 人收藏 0 人点赞
#metal

@steeve:又是5天后,zml/llmd完全在Metal上运行,以完整bf16精度服务8个并发请求 zml/llmd是我们的大语言模型服务…

X AI KOLs Following · 2026-06-13 缓存

zml/llmd现已完全在Apple的Metal API上运行,以完整bf16精度服务8个并发请求,并支持连续批处理等现代功能。

0 人收藏 0 人点赞
#metal

Rigel:逆向工程Apple M4 Max GPU上的Metal 4.1张量计算路径

arXiv cs.CL · 2026-06-12 缓存

Rigel是对Apple M4 Max GPU上Metal 4.1张量计算路径的经验性表征,揭示了fp8 matmul2d是模拟的(而非硬件加速),该操作完全在GPU着色器核心上执行,没有专用的矩阵数据路径,并重构了不透明的协作张量片段布局。

0 人收藏 0 人点赞
#metal

@LucSGeorges: 性能满载版本:safetensors 0.8.0 发布。主要亮点:- 直接复制到 Metal MTLBuffers + 使用 dlpack 实现零拷贝…

X AI KOLs Following · 2026-06-09 缓存

safetensors 0.8.0 版本带来了重大性能提升:通过 dlpack 直接复制到 Metal MTLBuffers,实现 2-3 倍的加载速度提升,并修复了 macOS 上的 OOM 问题;同时支持无 GIL 序列化,加快多文件保存速度。

0 人收藏 0 人点赞
#metal

我开发了一款 iOS 应用,可以在你的 iPhone/iPad 上对 GGUF 模型进行基准测试

Reddit r/LocalLLaMA · 2026-06-05

GenBench 是一款免费的 iOS 应用,允许用户使用 llama.cpp 和 Metal 在 iPhone/iPad 上下载、运行和基准测试 GGUF 模型,支持离线聊天、标准化基准测试和全球排行榜等功能。

0 人收藏 0 人点赞
#metal

@mylifcc: 我已经在mac上用上Gemma-4-12b了,技术栈是: llama.cpp + GGUF Q4_K_M + Metal 32K context,本地 OpenAI-compatible API 实测约 36 tok/s,常驻 RSS 约…

X AI KOLs Timeline · 2026-06-03 缓存

用户分享在Mac上使用llama.cpp配合GGUF Q4_K_M量化版Gemma-4-12b模型的经验,实现了约36 tok/s的本地推理速度和约10GB内存占用。

0 人收藏 0 人点赞
#metal

金属地图

Hacker News Top · 2026-05-20

一张交互式地图,展示重金属音乐的子流派。

0 人收藏 0 人点赞
#metal

在@huggingface上发布我的第一个内核:MaxSim后期交互检索(ColBERT / PyLate)的瓶颈在于材料……

X AI KOLs Following · 2026-05-18 缓存

在 Hugging Face 上发布了一个内核,通过使用分块评分和 SIMD 组矩阵运算(Metal 和 WMMA)来加速 MaxSim 后期交互检索,比朴素实现获得了 3–5 倍的加速。

0 人收藏 0 人点赞
#metal

@no_stp_on_snek: vllm-swift 0.6.3 和 longctx 0.3.2 已发布。亮点:triattentionv3 + longctx rescue path 在 Apple Silicon 上达到 256K NIAH…

X AI KOLs Following · 2026-05-14 缓存

vllm-swift 0.6.3 和 longctx 0.3.2 版本带来了 triattentionv3,在 Apple Silicon 上支持 256K 上下文;Gemma 4 MTP drafter 支持;带有自动恢复的 Hermes tool calling;以及用于扩展到 12M token 语料的 longctx-svc 守护进程。

0 人收藏 0 人点赞
#metal

@axiaisacat: Redis 作者 antirez 又扔了个硬核项目:ds4。 不是又一个 GGUF runner,而是专门为 DeepSeek V4 Flash 写的本地推理引擎: Metal / CUDA 2-bit 量化 1M context KV …

X AI KOLs Timeline · 2026-05-14 缓存

Redis creator antirez released ds4, a local inference engine optimized for DeepSeek V4 Flash with 2-bit quantization and support for 1M context KV cache on Metal and CUDA.

0 人收藏 0 人点赞
#metal

@VincentLogic: 发现个炸裂的开源项目!Redis 之父 antirez 亲自下场搞了个大新闻! ds4 —— DeepSeek V4 Flash 本地推理引擎,专为 Mac Metal 优化,连续霸榜 GitHub 好几天! 最狠的地方来了: 128GB…

X AI KOLs Timeline · 2026-05-13

Redis 之父 antirez 发布了名为 ds4 的开源项目,是专为 Mac Metal 优化的 DeepSeek V4 Flash 本地推理引擎,支持磁盘 KV 缓存、超长上下文,性能优异。

0 人收藏 0 人点赞
#metal

@antirez: 怀着感激宣布,@audreyt刚刚赠送给我一台M5 Max 128GB MacBook Pro!这将让我能够开发DwarfStar4 (…

X AI KOLs Timeline · 2026-05-12

antirez宣布收到audreyt赠送的M5 Max 128GB MacBook Pro,用于开发DwarfStar4,并在M3 Max和M5 Max硬件上进行分布式推理实验。

0 人收藏 0 人点赞
#metal

@antirez:我刚刚推送了对 DS4 后端的大规模重构,新增了 CUDA 支持和单方向激活转向。Metal 路径……

X AI KOLs Timeline · 2026-05-11

antirez 推送了对 DS4 后端的一次重大重构,加入了 CUDA 支持和单方向激活转向,同时保留了 Metal 路径。目前仅支持 M3 和 DGX Spark 硬件。

0 人收藏 0 人点赞
#metal

Metal 上的 DeepSeek V4 Flash 本地推理引擎

Hacker News Top · 2026-05-07 缓存

ds4 是一款专为 Apple Silicon 优化的 DeepSeek V4 Flash 本地原生推理引擎,支持基于磁盘的 KV 缓存持久化和 Metal 加速。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈