optimization

标签

#optimization

Orth-Dion: 消除分布式低秩谱优化中的几何失配

arXiv cs.LG ↗ · 2026-05-19 缓存

本文指出了Dion低秩谱优化器中的几何失配，并提出了Orth-Dion，该方案用QR正交化替换列归一化，以在相同通信成本下弥合与Muon等全秩方法的收敛差距，并在大规模语言模型预训练中进行了验证。

0 人收藏 0 人点赞

#optimization

SignMuon: 通信高效的分布式Muon优化

arXiv cs.LG ↗ · 2026-05-19 缓存

SignMuon是一种1位、感知矩阵的分布式训练优化器，它结合了signSGD的多数投票符号聚合与Muon的极坐标步骤框架，在float32基础上实现32倍带宽缩减，同时在CIFAR-10/ResNet-50和nanoGPT等基准测试上保持强大的收敛性和性能。

0 人收藏 0 人点赞

#optimization

面向函数约束变分不等式问题的镜像下降类算法

arXiv cs.LG ↗ · 2026-05-19 缓存

本文提出了面向函数约束变分不等式问题的镜像下降类算法，证明了对于有界单调算子与Lipschitz凸约束问题的最优收敛速率。此外，引入了一种改进方法以提升多约束场景下的效率。

0 人收藏 0 人点赞

#optimization

供应链管理中自主AI代理的可靠性与有效性

arXiv cs.AI ↗ · 2026-05-19 缓存

本文利用MIT啤酒游戏研究了多级供应链中的自主生成式AI代理，识别了四个推理时杠杆因素，并引入了代理牛鞭效应的概念。研究表明推理模型可以超越人类表现，并提出了基于GRPO的后训练以提高可靠性。

0 人收藏 0 人点赞

#optimization

LoRA 与权重衰减 (2023)

Hacker News Top ↗ · 2026-05-18 缓存

这篇博客文章探讨了LoRA与权重衰减的相互作用如何导致与全参微调不同的优化目标，其中权重被正则化到初始模型而不是零。它解释了对实践者的影响。

0 人收藏 0 人点赞

#optimization

使用CUDA内核重写模型推理：瓶颈不仅仅是GEMM [P]

Reddit r/MachineLearning ↗ · 2026-05-18

作者描述了构建FlashRT的过程，这是一个以CUDA为核心的推理运行时，通过使用C++/CUDA内核重写模型推理路径，来解决小批量/实时工作负载中超出GEMM的瓶颈，在Jetson Thor和RTX 5090上实现了显著的延迟改进。文章讨论了关于精度的经验（FP8有帮助，FP4好坏参半）以及绕过通用运行时进行实时推理的必要性。

0 人收藏 0 人点赞

#optimization

每个AI提示都需花费成本——这改变了一切

Reddit r/AI_Agents ↗ · 2026-05-18

文章认为，AI的真正挑战不仅在于构建更智能的模型，更在于以规模化的方式降低成本效率，强调了减少token使用、提升速度以及优化基础设施的重要性。

0 人收藏 0 人点赞

#optimization

FediMeteo、HAProxy 与不浪费 snac 线程的艺术

Lobsters Hottest ↗ · 2026-05-18 缓存

作者介绍了在 FediMeteo 服务中使用 HAProxy 缓存来减少 snac 线程上的不必要负载，此前已用 nginx 做过类似优化。该方法旨在通过让反向代理吸收重复的公共请求，保持轻量级 ActivityPub 服务器的高效。

0 人收藏 0 人点赞

#optimization

论结构可塑性中增长的稳定性

arXiv cs.LG ↗ · 2026-05-18 缓存

本文研究神经网络结构可塑性中剪枝与增长之间的不对称性，表明新生单元比现有单元受到更弱的梯度信号，并提出改进整合的干预措施。

0 人收藏 0 人点赞

#optimization

$\phi$-平衡：面向混合专家训练

arXiv cs.LG ↗ · 2026-05-18 缓存

本文提出φ-平衡，一种面向混合专家模型中负载平衡的理论框架，直接针对总体层面专家平衡，利用凸对偶和镜像下降，实现更稳定的专家利用率，并在推理和代码生成基准上超越先前方法。

0 人收藏 0 人点赞

#optimization

基于大语言模型引导树搜索的优化三维光伏结构

arXiv cs.CL ↗ · 2026-05-18 缓存

本文介绍了一个案例研究，使用大语言模型驱动的树搜索算法（ERA）结合编码代理（AntiGravity）自主生成高效三维光伏结构，克服了中纬度地区平板太阳能电池板的局限性。工作流程包括迭代修补以消除奖励黑客行为，并在各种约束条件下发现改进的设计。

0 人收藏 0 人点赞

#optimization

基准测试新b9200更新：在单张RTX 3090上为Hermes Agent优化Qwen 3.6 27B mtp

Reddit r/LocalLLaMA ↗ · 2026-05-18

对llama.cpp的b9200更新进行基准测试，使用优化标志在单张RTX 3090上运行Qwen 3.6 27B MTP，结果显示在代理工作流的提示处理速度方面有显著性能提升。

0 人收藏 0 人点赞

#optimization

ROCm 7.13 夜间版新增 Strix Halo 优化

Reddit r/LocalLLaMA ↗ · 2026-05-17

AMD 的 ROCm 7.13 技术预览版为 Strix Halo（Ryzen AI Max 300）新增优化，并将 ROCprof Trace Decoder 开源。

0 人收藏 0 人点赞

#optimization

llama: 在 MTP 中避免在提示解码期间复制 logits · 由 am17an 提交 · PR #23198 · ggml-org/llama.cpp

Reddit r/LocalLLaMA ↗ · 2026-05-17 缓存

此拉取请求通过避免在多令牌预测的提示解码过程中不必要地复制 logits，优化了 llama.cpp，从而提升推理性能。

0 人收藏 0 人点赞

#optimization

KV缓存正成为推理的内存层级结构

Hacker News Top ↗ · 2026-05-17 缓存

文章讨论了KV缓存如何演变为LLM推理的内存层级结构，优化解码过程中的内存管理。

0 人收藏 0 人点赞

#optimization

C++ 编译器何时可以反虚拟化调用？

Hacker News Top ↗ · 2026-05-17 缓存

探讨 C++ 编译器何时可以对虚函数调用进行去虚拟化，涵盖已知动态类型和 final 关键字等情况，并在 GCC、Clang、MSVC 和 ICC 之间进行比较。

0 人收藏 0 人点赞

#optimization

理解 Go 中的 Singleflight

Hacker News Top ↗ · 2026-05-16 缓存

本文介绍了 Go 中的 singleflight 模式，该模式通过确保同时只有一个请求在执行，并将结果共享给所有调用者，从而消除对昂贵操作的冗余并发调用。

0 人收藏 0 人点赞

#optimization

Fil-C 优化调用约定

Hacker News Top ↗ · 2026-05-16 缓存

Fil-C 优化调用约定确保 C 程序即使在恶意滥用情况下也能保持内存安全性，同时通过在常见情况下省略安全检查来保持效率。它解释了通过 panic 或定义明确的行为来处理类型违规的通用优化和寄存器传递优化。

0 人收藏 0 人点赞

#optimization

@gdb: codex for improving computational complexity

X AI KOLs Following ↗ · 2026-05-16 缓存

一个 Codex 技能，用于分析代码库以识别性能热点，例如循环、重复查找和 N+1 模式。

0 人收藏 0 人点赞

#optimization

如何写入SSD

Lobsters Hottest ↗ · 2026-05-16 缓存

本文提出了针对数据库系统的异地写入优化，以充分利用SSD性能，在OLTP基准测试中实现了1.65-2.24倍的吞吐量提升和6.2-9.8倍的闪存写入减少。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈