optimization

标签

Cards List
#optimization

Orth-Dion: 消除分布式低秩谱优化中的几何失配

arXiv cs.LG · 2026-05-19 缓存

本文指出了Dion低秩谱优化器中的几何失配,并提出了Orth-Dion,该方案用QR正交化替换列归一化,以在相同通信成本下弥合与Muon等全秩方法的收敛差距,并在大规模语言模型预训练中进行了验证。

0 人收藏 0 人点赞
#optimization

SignMuon: 通信高效的分布式Muon优化

arXiv cs.LG · 2026-05-19 缓存

SignMuon是一种1位、感知矩阵的分布式训练优化器,它结合了signSGD的多数投票符号聚合与Muon的极坐标步骤框架,在float32基础上实现32倍带宽缩减,同时在CIFAR-10/ResNet-50和nanoGPT等基准测试上保持强大的收敛性和性能。

0 人收藏 0 人点赞
#optimization

面向函数约束变分不等式问题的镜像下降类算法

arXiv cs.LG · 2026-05-19 缓存

本文提出了面向函数约束变分不等式问题的镜像下降类算法,证明了对于有界单调算子与Lipschitz凸约束问题的最优收敛速率。此外,引入了一种改进方法以提升多约束场景下的效率。

0 人收藏 0 人点赞
#optimization

供应链管理中自主AI代理的可靠性与有效性

arXiv cs.AI · 2026-05-19 缓存

本文利用MIT啤酒游戏研究了多级供应链中的自主生成式AI代理,识别了四个推理时杠杆因素,并引入了代理牛鞭效应的概念。研究表明推理模型可以超越人类表现,并提出了基于GRPO的后训练以提高可靠性。

0 人收藏 0 人点赞
#optimization

LoRA 与权重衰减 (2023)

Hacker News Top · 2026-05-18 缓存

这篇博客文章探讨了LoRA与权重衰减的相互作用如何导致与全参微调不同的优化目标,其中权重被正则化到初始模型而不是零。它解释了对实践者的影响。

0 人收藏 0 人点赞
#optimization

使用CUDA内核重写模型推理:瓶颈不仅仅是GEMM [P]

Reddit r/MachineLearning · 2026-05-18

作者描述了构建FlashRT的过程,这是一个以CUDA为核心的推理运行时,通过使用C++/CUDA内核重写模型推理路径,来解决小批量/实时工作负载中超出GEMM的瓶颈,在Jetson Thor和RTX 5090上实现了显著的延迟改进。文章讨论了关于精度的经验(FP8有帮助,FP4好坏参半)以及绕过通用运行时进行实时推理的必要性。

0 人收藏 0 人点赞
#optimization

每个AI提示都需花费成本——这改变了一切

Reddit r/AI_Agents · 2026-05-18

文章认为,AI的真正挑战不仅在于构建更智能的模型,更在于以规模化的方式降低成本效率,强调了减少token使用、提升速度以及优化基础设施的重要性。

0 人收藏 0 人点赞
#optimization

FediMeteo、HAProxy 与不浪费 snac 线程的艺术

Lobsters Hottest · 2026-05-18 缓存

作者介绍了在 FediMeteo 服务中使用 HAProxy 缓存来减少 snac 线程上的不必要负载,此前已用 nginx 做过类似优化。该方法旨在通过让反向代理吸收重复的公共请求,保持轻量级 ActivityPub 服务器的高效。

0 人收藏 0 人点赞
#optimization

论结构可塑性中增长的稳定性

arXiv cs.LG · 2026-05-18 缓存

本文研究神经网络结构可塑性中剪枝与增长之间的不对称性,表明新生单元比现有单元受到更弱的梯度信号,并提出改进整合的干预措施。

0 人收藏 0 人点赞
#optimization

$\phi$-平衡:面向混合专家训练

arXiv cs.LG · 2026-05-18 缓存

本文提出φ-平衡,一种面向混合专家模型中负载平衡的理论框架,直接针对总体层面专家平衡,利用凸对偶和镜像下降,实现更稳定的专家利用率,并在推理和代码生成基准上超越先前方法。

0 人收藏 0 人点赞
#optimization

基于大语言模型引导树搜索的优化三维光伏结构

arXiv cs.CL · 2026-05-18 缓存

本文介绍了一个案例研究,使用大语言模型驱动的树搜索算法(ERA)结合编码代理(AntiGravity)自主生成高效三维光伏结构,克服了中纬度地区平板太阳能电池板的局限性。工作流程包括迭代修补以消除奖励黑客行为,并在各种约束条件下发现改进的设计。

0 人收藏 0 人点赞
#optimization

基准测试新b9200更新:在单张RTX 3090上为Hermes Agent优化Qwen 3.6 27B mtp

Reddit r/LocalLLaMA · 2026-05-18

对llama.cpp的b9200更新进行基准测试,使用优化标志在单张RTX 3090上运行Qwen 3.6 27B MTP,结果显示在代理工作流的提示处理速度方面有显著性能提升。

0 人收藏 0 人点赞
#optimization

ROCm 7.13 夜间版新增 Strix Halo 优化

Reddit r/LocalLLaMA · 2026-05-17

AMD 的 ROCm 7.13 技术预览版为 Strix Halo(Ryzen AI Max 300)新增优化,并将 ROCprof Trace Decoder 开源。

0 人收藏 0 人点赞
#optimization

llama: 在 MTP 中避免在提示解码期间复制 logits · 由 am17an 提交 · PR #23198 · ggml-org/llama.cpp

Reddit r/LocalLLaMA · 2026-05-17 缓存

此拉取请求通过避免在多令牌预测的提示解码过程中不必要地复制 logits,优化了 llama.cpp,从而提升推理性能。

0 人收藏 0 人点赞
#optimization

KV缓存正成为推理的内存层级结构

Hacker News Top · 2026-05-17 缓存

文章讨论了KV缓存如何演变为LLM推理的内存层级结构,优化解码过程中的内存管理。

0 人收藏 0 人点赞
#optimization

C++ 编译器何时可以反虚拟化调用?

Hacker News Top · 2026-05-17 缓存

探讨 C++ 编译器何时可以对虚函数调用进行去虚拟化,涵盖已知动态类型和 final 关键字等情况,并在 GCC、Clang、MSVC 和 ICC 之间进行比较。

0 人收藏 0 人点赞
#optimization

理解 Go 中的 Singleflight

Hacker News Top · 2026-05-16 缓存

本文介绍了 Go 中的 singleflight 模式,该模式通过确保同时只有一个请求在执行,并将结果共享给所有调用者,从而消除对昂贵操作的冗余并发调用。

0 人收藏 0 人点赞
#optimization

Fil-C 优化调用约定

Hacker News Top · 2026-05-16 缓存

Fil-C 优化调用约定确保 C 程序即使在恶意滥用情况下也能保持内存安全性,同时通过在常见情况下省略安全检查来保持效率。它解释了通过 panic 或定义明确的行为来处理类型违规的通用优化和寄存器传递优化。

0 人收藏 0 人点赞
#optimization

@gdb: codex for improving computational complexity

X AI KOLs Following · 2026-05-16 缓存

一个 Codex 技能,用于分析代码库以识别性能热点,例如循环、重复查找和 N+1 模式。

0 人收藏 0 人点赞
#optimization

如何写入SSD

Lobsters Hottest · 2026-05-16 缓存

本文提出了针对数据库系统的异地写入优化,以充分利用SSD性能,在OLTP基准测试中实现了1.65-2.24倍的吞吐量提升和6.2-9.8倍的闪存写入减少。

0 人收藏 0 人点赞
← Previous
Next →
← 返回首页

提交意见反馈