标签
Lucebox Hub 为本地 LLM 推理提供优化的 CUDA 内核(Megakernel、DFlash、PFlash),在各种模型和 GPU 上相比 llama.cpp 实现了显著的加速(2-10 倍)。
Arthur Pastel 优化了 Rust image-rs crate 中的 fast_blur 函数,通过使用盒式模糊近似实现更快速的高斯模糊效果,在处理 u8 图像时速度提升最高达 5.9 倍。
Steven Brunton 宣布他的新书 'Optimization: A Bootcamp for Machine Learning, Inverse Problems, and Control',现已开放预订,并配套提供免费PDF、YouTube视频和Python代码。
用户分享在Mac上通过不同量化方法(Unsloth Q5、MLX 6bit + DFlash、MTPLX 4bit)优化Qwen3.6-27B推理速度的经验,最终达到43 tok/s。
Hugging Face 的内核项目正在扩展,并寻求贡献者参与自主内核开发,为模型提供真正的优化价值。
EnergyLens是一个端到端的框架,用于多GPU大语言模型推理的预测性能耗感知优化,在Llama3和Qwen3-MoE上验证,平均绝对百分比误差在9.25%至13.19%之间,并揭示了不同配置之间显著的能耗差异。
本文为混合专家(MoE)架构提出了一套具有理论基础的缩放理论,引入了最大化尺度稳定参数化(MSSP),确保在宽度、深度、专家宽度和专家数量上的稳定训练和超参数迁移,并通过实验验证。
提出PPOW,一种强化学习框架,用于优化推测解码中的草稿模型,采用窗口级目标和自适应窗口化,在多个基准测试中实现了显著加速。
开发者报告在mlx-swift-lm中实现稀疏注意力的进展,在M5 Max上仅比密集注意力多4%的开销。
一位用户分享了通过命令'Disable-mmagent -mc'禁用内存压缩来解决Windows 11中AMD GPU运行AI模型时的性能瓶颈问题。
介绍贝叶斯模型合并(BMM),这是一个即插即用的双层优化框架,用于将多个任务特定的专家模型合并为一个单一模型,在视觉和语言基准测试上实现了最先进的性能。
本文识别了延迟反馈下双层优化中的“过时放大”现象,并提出IGT-OMD,该方法利用隐式梯度传输实现亚线性后悔,并在Warcraft最短路径和LQR等基准上改善了决策损失。
快速-慢速训练(FST)将上下文优化(通过GEPA)与通过强化学习进行的模型权重更新交替进行,在数学、代码和物理推理上实现了比单独使用RL高3倍的样本效率,同时保持了可塑性并实现了持续学习。
文章认为,主要的AI风险可能不是超级智能,而是那些优化了有缺陷、不完整的现实表征的系统,从而导致制度漂移、自动误分类和隐蔽的治理失败。
TanStack Devtools 迁移到了 OxcProject 解析器和 magic-string,实现了 3.56 倍的加速,单文件转换时间从 1.65 毫秒降至 0.46 毫秒。
DeepSpeed 是一个由微软开发的开源深度学习优化库,能够高效地实现大规模模型的分布式训练和推理,具备 ZeRO、3D 并行和 Mixture-of-Experts 等特性。
本文探讨了如何使用 Google OR-Tools CP-SAT 求解器来优化 Akamai 云基础设施的维护调度,解决了涉及容量和并发等复杂约束的问题。
本文讨论了部分静态单信息(SSI)形式,这是一种编译器中 SSA 的扩展,用于捕获依赖于路径的类型信息。文章提出了一种在动态语言中构建 SSA 期间实现部分 SSI 的实用捷径,具体引用了 Ruby 的 ZJIT 中的实现。