标签
作者表示,如果苹果很快发布 M5 Ultra Mac Studio,他会立即订购最大内存版本,理由是 M3 Ultra 的高转售价值以及 M5 在推理性能上的巨大飞跃。
Charles Frye 宣布了一篇博客文章,详细介绍了对 FA4 内部结构的贡献,重点在于已上游的推理性能改进。
测试表明,llama.cpp 默认的流水线并行浪费显存且无速度提升;通过编译时设置 GGML_SCHED_MAX_COPIES=1 可节省大量显存,同时保持相同推理速度。
本文展示了 8 个本地大语言模型在 RTX 3090 上的基准测试结果,显示功率能效在约 225W 时达到峰值,而在满功率下收益递减。