标签
DeepSpeed 是一个由微软开发的开源深度学习优化库,能够高效地实现大规模模型的分布式训练和推理,具备 ZeRO、3D 并行和 Mixture-of-Experts 等特性。
本文探讨了如何使用 Google OR-Tools CP-SAT 求解器来优化 Akamai 云基础设施的维护调度,解决了涉及容量和并发等复杂约束的问题。
本文讨论了部分静态单信息(SSI)形式,这是一种编译器中 SSA 的扩展,用于捕获依赖于路径的类型信息。文章提出了一种在动态语言中构建 SSA 期间实现部分 SSI 的实用捷径,具体引用了 Ruby 的 ZJIT 中的实现。
本文对 Muon 优化器的几何依据提出了挑战,认为精确的几何结构不如步长最优性重要。文章引入了 Freon 和 Kaon 优化器,以证明随机或反转谱的性能与 Muon 相当。
本文介绍了 SODA,这是乐观对偶平均化的一种广义形式,统一了 Muon 和 Lion 等现代优化器。该研究提出了一种实用包装器,在不同规模下均可提升性能,且无需为权重衰减进行额外的超参数调优。
本文介绍了牛顿之灯,这是一种强化学习框架,用于微调热启动模型,以更高效地解决交流潮流问题,尤其是在接近电压崩溃的情况下。
本文介绍了 ReVision,一种通过从连续屏幕截图中移除冗余视觉块来减少计算机使用智能体 token 使用量的方法。研究表明,这种效率提升使得智能体能够处理更长的轨迹,并在 OSWorld 等基准测试中提高性能。
一名用户在消费级硬件上使用 Unsloth 对 Qwen 3.6 35B 进行了基准测试,对比了 MTP、TriAttention 和 TurboQuant 优化效果,发现 TurboQuant 最为有效。
作者介绍了“Autoharness”,这是一个利用 Claude Code 通过迭代提示词和超参数来自主优化 Agent 框架的工具。在 tau2-airline 基准测试中,该工具使性能提升了 40%。
本文探讨了极低量化大语言模型中的平滑性退化问题,认为除了数值精度外,保持平滑性对于维持模型性能至关重要。
Unsloth 是一款用于高效 LLM 训练和推理的开源库,现已正式加入 PyTorch 生态系统,以提升易用性和性能。公告重点介绍了 Unsloth Studio 等新功能以及优化后的内核,可降低 VRAM 使用量。
Akshay Pachaar 概述了AI工程师在提示工程之外的必备技能,包括缓存策略、可观测性以及成本分摊。
autoharness 是一个自动化代理 harness 优化工具,能基于基准测试命令自动生成提案、运行评估并改进 agent 的 prompt、配置和源码,支持 Codex 和 Claude。
本文提出了在线共享库存分配问题,并设计了一种确定性的阈值比例策略(GPA),该策略能达到离线最优解的 4/3 近似比。文章还介绍了一种学习增强型扩展方法,以处理不完美的预测,并在合成数据及真实世界实验中展示了其优越的性能。
本文介绍了 SHAPE,这是一种针对固定预算非凸优化的结构化自适应端口哈密顿优化器,它利用事件触发机制来平衡下降、探索和预算分配。
本文提出了一种适用于 Adam 及其他自适应优化器的“杆流”模型,以更好地分析其在边缘稳定性(Edge of Stability)下的行为。该研究将连续时间建模扩展至动量方法,结果表明,与稳定的流模型相比,该模型在追踪离散迭代点方面具有更高的准确性。
本文重新审视了 Adam 优化器在流式强化学习中的应用,证明经过适当调优后,DQN 和 C51 等成熟方法表现良好。作者提出了自适应 Q(lambda) 算法,该算法将资格迹与 Adam 的方差自适应特性相结合,在 55 款 Atari 游戏中超越了现有的流式强化学习方法。
本文提出了一种混合 LoRA 与全参数微调(MoLF)框架,利用梯度引导的优化器路由在 LoRA 和全参数微调之间进行自适应切换。旨在通过结合全参数微调的可塑性与 LoRA 的正则化特性,克服仅依赖静态适配方法的结构局限性。
本文利用KL散度和Bregman几何,推导了信念空间动力学中允许的学习率步长的闭式上界,重点关注交叉熵分类任务。