标签
本文指出了Dion低秩谱优化器中的几何失配,并提出了Orth-Dion,该方案用QR正交化替换列归一化,以在相同通信成本下弥合与Muon等全秩方法的收敛差距,并在大规模语言模型预训练中进行了验证。
SignMuon是一种1位、感知矩阵的分布式训练优化器,它结合了signSGD的多数投票符号聚合与Muon的极坐标步骤框架,在float32基础上实现32倍带宽缩减,同时在CIFAR-10/ResNet-50和nanoGPT等基准测试上保持强大的收敛性和性能。
本文提出了面向函数约束变分不等式问题的镜像下降类算法,证明了对于有界单调算子与Lipschitz凸约束问题的最优收敛速率。此外,引入了一种改进方法以提升多约束场景下的效率。
本文利用MIT啤酒游戏研究了多级供应链中的自主生成式AI代理,识别了四个推理时杠杆因素,并引入了代理牛鞭效应的概念。研究表明推理模型可以超越人类表现,并提出了基于GRPO的后训练以提高可靠性。
这篇博客文章探讨了LoRA与权重衰减的相互作用如何导致与全参微调不同的优化目标,其中权重被正则化到初始模型而不是零。它解释了对实践者的影响。
作者描述了构建FlashRT的过程,这是一个以CUDA为核心的推理运行时,通过使用C++/CUDA内核重写模型推理路径,来解决小批量/实时工作负载中超出GEMM的瓶颈,在Jetson Thor和RTX 5090上实现了显著的延迟改进。文章讨论了关于精度的经验(FP8有帮助,FP4好坏参半)以及绕过通用运行时进行实时推理的必要性。
文章认为,AI的真正挑战不仅在于构建更智能的模型,更在于以规模化的方式降低成本效率,强调了减少token使用、提升速度以及优化基础设施的重要性。
作者介绍了在 FediMeteo 服务中使用 HAProxy 缓存来减少 snac 线程上的不必要负载,此前已用 nginx 做过类似优化。该方法旨在通过让反向代理吸收重复的公共请求,保持轻量级 ActivityPub 服务器的高效。
本文研究神经网络结构可塑性中剪枝与增长之间的不对称性,表明新生单元比现有单元受到更弱的梯度信号,并提出改进整合的干预措施。
本文提出φ-平衡,一种面向混合专家模型中负载平衡的理论框架,直接针对总体层面专家平衡,利用凸对偶和镜像下降,实现更稳定的专家利用率,并在推理和代码生成基准上超越先前方法。
本文介绍了一个案例研究,使用大语言模型驱动的树搜索算法(ERA)结合编码代理(AntiGravity)自主生成高效三维光伏结构,克服了中纬度地区平板太阳能电池板的局限性。工作流程包括迭代修补以消除奖励黑客行为,并在各种约束条件下发现改进的设计。
对llama.cpp的b9200更新进行基准测试,使用优化标志在单张RTX 3090上运行Qwen 3.6 27B MTP,结果显示在代理工作流的提示处理速度方面有显著性能提升。
AMD 的 ROCm 7.13 技术预览版为 Strix Halo(Ryzen AI Max 300)新增优化,并将 ROCprof Trace Decoder 开源。
此拉取请求通过避免在多令牌预测的提示解码过程中不必要地复制 logits,优化了 llama.cpp,从而提升推理性能。
探讨 C++ 编译器何时可以对虚函数调用进行去虚拟化,涵盖已知动态类型和 final 关键字等情况,并在 GCC、Clang、MSVC 和 ICC 之间进行比较。
本文介绍了 Go 中的 singleflight 模式,该模式通过确保同时只有一个请求在执行,并将结果共享给所有调用者,从而消除对昂贵操作的冗余并发调用。
Fil-C 优化调用约定确保 C 程序即使在恶意滥用情况下也能保持内存安全性,同时通过在常见情况下省略安全检查来保持效率。它解释了通过 panic 或定义明确的行为来处理类型违规的通用优化和寄存器传递优化。
一个 Codex 技能,用于分析代码库以识别性能热点,例如循环、重复查找和 N+1 模式。
本文提出了针对数据库系统的异地写入优化,以充分利用SSD性能,在OLTP基准测试中实现了1.65-2.24倍的吞吐量提升和6.2-9.8倍的闪存写入减少。