inference-performance

标签

Cards List
#inference-performance

@jun_song: 如果苹果很快推出 M5 Ultra Mac Studio,我会立即下单最大内存版本。毫不犹豫。M3 Ultra…

X AI KOLs Following · 2026-06-21 缓存

作者表示,如果苹果很快发布 M5 Ultra Mac Studio,他会立即订购最大内存版本,理由是 M3 Ultra 的高转售价值以及 M5 在推理性能上的巨大飞跃。

0 人收藏 0 人点赞
#inference-performance

@derangineer: 游戏中的山羊

X AI KOLs Following · 2026-06-11 缓存

Charles Frye 宣布了一篇博客文章,详细介绍了对 FA4 内部结构的贡献,重点在于已上游的推理性能改进。

0 人收藏 0 人点赞
#inference-performance

llama.cpp 中的流水线并行可能浪费你的显存

Reddit r/LocalLLaMA · 2026-06-08

测试表明,llama.cpp 默认的流水线并行浪费显存且无速度提升;通过编译时设置 GGML_SCHED_MAX_COPIES=1 可节省大量显存,同时保持相同推理速度。

0 人收藏 0 人点赞
#inference-performance

@Snixtp: 针对单张 RTX 3090 的更多能效测试 长文速读:- 我在单张 RTX 3090 上测试了 8 个本地大语言模型(LLM),功率限制从 100W 到 45…

X AI KOLs Following · 2026-05-08

本文展示了 8 个本地大语言模型在 RTX 3090 上的基准测试结果,显示功率能效在约 225W 时达到峰值,而在满功率下收益递减。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈