inference-performance

#inference-performance

@jun_song: 如果苹果很快推出 M5 Ultra Mac Studio，我会立即下单最大内存版本。毫不犹豫。M3 Ultra…

X AI KOLs Following ↗ · 2026-06-21 缓存

作者表示，如果苹果很快发布 M5 Ultra Mac Studio，他会立即订购最大内存版本，理由是 M3 Ultra 的高转售价值以及 M5 在推理性能上的巨大飞跃。

0 人收藏 0 人点赞

#inference-performance

X AI KOLs Following ↗ · 2026-06-11 缓存

Charles Frye 宣布了一篇博客文章，详细介绍了对 FA4 内部结构的贡献，重点在于已上游的推理性能改进。

0 人收藏 0 人点赞

#inference-performance

Reddit r/LocalLLaMA ↗ · 2026-06-08

测试表明，llama.cpp 默认的流水线并行浪费显存且无速度提升；通过编译时设置 GGML_SCHED_MAX_COPIES=1 可节省大量显存，同时保持相同推理速度。

0 人收藏 0 人点赞

#inference-performance

X AI KOLs Following ↗ · 2026-05-08

本文展示了 8 个本地大语言模型在 RTX 3090 上的基准测试结果，显示功率能效在约 225W 时达到峰值，而在满功率下收益递减。

0 人收藏 0 人点赞