标签
Tensordyne推出了Napier,一种在硅片上使用对数数学的推理系统,声称对MoE和推理模型有巨大的效率提升,并采用风冷机架。
分析AI模型尺寸趋势,指出100-120B参数范围存在空白,近期发布主要聚焦于较小(25-35B)或较大(200B+)的模型。
用户评测表明,使用llama.cpp运行大型MoE模型时,Windows 11与Linux之间并无显著速度差异,打破了一个常见迷思。在多GPU配置下,使用Qwen 3.5 122B、397B和MiniMax 2.7等模型进行测试,提示处理和令牌生成速度几乎相同。
Apple Silicon Mac 提供大内存池运行大模型,但 token 生成较慢,最适合活跃参数量低的大型 MoE 模型。