optimization

#optimization

输入凸神经网络训练的一种提升方法

arXiv cs.LG ↗ · 2026-05-26 缓存

提出了一种用于训练输入凸神经网络（ICNN）的“提升”方法，该方法使用无约束的超网络生成非负的层间权重，从而软化损失景观并避免梯度衰减，相比投影梯度下降和softplus重参数化，实现了更低的测试损失。

0 人收藏 0 人点赞

#optimization

面向LLM赋能代理工作流的可靠设计：优化延迟-可靠性-成本权衡

arXiv cs.AI ↗ · 2026-05-26 缓存

本文分析了LLM赋能代理工作流中延迟、可靠性和成本之间的权衡，引入了性能模型，并推导出了如注水令牌分配等最优资源分配策略。

0 人收藏 0 人点赞

#optimization

@dosco: 我看到很多行业论文实际上是Karpathy的自动研究循环（未引用）或是Codex优化目标，旨在改进某个特定事物……

X AI KOLs Timeline ↗ · 2026-05-26 缓存

关于近期行业AI论文缺乏新颖性的批判性观察，以SkillOpt为例，这些论文将自然语言技能视为可训练的外部参数。

0 人收藏 0 人点赞

#optimization

体积微小，效果显著：大语言模型中的缩放向量研究

Hugging Face Daily Papers ↗ · 2026-05-26 缓存

本文系统地研究了LLM归一化层中的缩放向量，揭示了它们通过自放大预条件效应优化训练，并提出了三种轻量级改进方案，在几乎不增加开销的情况下提升性能和扩展行为。

0 人收藏 0 人点赞

#optimization

为Orange Pi AIPro（Ascend 310B）上的MiniCPM-V 4.6编写自定义C++引擎以绕过框架开销

Reddit r/LocalLLaMA ↗ · 2026-05-25

为Orange Pi AIPro（Ascend 310B NPU）上的MiniCPM-V 4.6开发了自定义C++推理引擎，通过为matmul和causal-conv1d编写优化的AscendC内核，实现了相比原始框架2倍的加速，达到5.90 tokens/s。

0 人收藏 0 人点赞

#optimization

基于无调度频谱优化的随时训练

arXiv cs.LG ↗ · 2026-05-25 缓存

本文介绍了SF-NorMuon，一种无调度频谱优化器，在参数规模达7.72亿的语言模型上匹配或超越调优后的AdamW，并提供了平稳性和长期稳定性的理论保证。

0 人收藏 0 人点赞

#optimization

解决飞机拆解调度问题

arXiv cs.AI ↗ · 2026-05-25 缓存

本文介绍了飞机拆解调度问题，这是一个大规模组合优化任务，涉及数千个任务、先后关系、平衡约束以及有限空间。本文提出了一个约束规划模型和一个MIP模型，并在包含多达1450个任务的实际运营实例上进行了测试。

0 人收藏 0 人点赞

#optimization

DVAO：多奖励强化学习中的动态方差自适应优势优化

Hugging Face Daily Papers ↗ · 2026-05-25 缓存

DVAO 根据奖励方差自适应地加权目标，以提升多奖励强化学习的训练稳定性和多目标性能。

0 人收藏 0 人点赞

#optimization

@Italianclownz: 已将 Qwen 3.6 35b a3b 转换为 ROCmfp4，运行飞快。使用了 mtp 版本，因为此 ROCmfp4 也可以融合 MTP 的优势…

X AI KOLs Timeline ↗ · 2026-05-24 缓存

将 Qwen 3.6 35b a3b 模型转换为 ROCmfp4 格式，利用 MTP 优势提升 AMD 硬件上的性能。

0 人收藏 0 人点赞

#optimization

@davideciffa: 如果你拥有Nvidia RTX 4090，--ddtree-budget 36是最佳配置，可在解码过程中带来2.5倍速度提升…

X AI KOLs Timeline ↗ · 2026-05-24 缓存

一条推文推荐Nvidia RTX 4090使用--ddtree-budget 36，声称在Qwen3.6_27B解码时实现2.5倍加速。

0 人收藏 0 人点赞

#optimization

方向对齐缓解语言模型强化学习中的奖励作弊

Hugging Face Daily Papers ↗ · 2026-05-24 缓存

本文通过更新几何研究语言模型强化学习中的奖励作弊，识别出优化漂移是一个关键因素。它提出可信方向投影，将梯度约束在干净的参考子空间内，从而延迟捷径利用并保持任务性能。

0 人收藏 0 人点赞

#optimization

@no_stp_on_snek: @antirez Turbo3 击败 fp8，在32K上下文下解码 tok/s 提升5%，还在调试中，但我一直在你的‘厨房’里折腾 TQ+

X AI KOLs Following ↗ · 2026-05-23 缓存

Turbo3 在32K上下文下，相比 fp8 解码速度提升了5%（每秒 tokens 数），这是量化或模型优化方面的性能改进。

0 人收藏 0 人点赞

#optimization

@LigengZhu: 很激动地分享KDA：驱动HAN Lab Kernel Mafia在Kernel Cont中获得#1~3内核排名的Kernel Design Agents……

X AI KOLs Timeline ↗ · 2026-05-23 缓存

KDA是一个由智能体驱动的内核设计框架，通过最小化人工参与，帮助HAN Lab在MLSys FlashInfer Kernel Contest中获得顶尖排名。该智能体利用Humanize、KernelWiki和性能分析技能来生成最先进的内核。

0 人收藏 0 人点赞

#optimization

@no_stp_on_snek: 始终从未压缩的k和压缩的V开始，然后更激进地进行。模型家族对k压缩的敏感性不同……

X AI KOLs Following ↗ · 2026-05-23 缓存

关于Transformer模型KV缓存压缩的提示：从未压缩的键和压缩的值开始，然后根据模型家族的敏感性进行调整；先尝试非对称压缩，再尝试对称压缩。

0 人收藏 0 人点赞

#optimization

@L1vsun: 我花了3个月打造最优化版克劳德代码设置，结果比第一天还差——23个插件、8个…

X AI KOLs Timeline ↗ · 2026-05-23 缓存

一位开发者分享，花了3个月过度优化克劳德代码设置，用了23个插件和多个框架，性能却比第一天还差；删除几乎所有内容后效果大幅提升，强调最小化设置通常最有效。

0 人收藏 0 人点赞

#optimization

@techNmak: 当前训练的每一个AI模型都离不开这套数学基础。梯度、雅可比矩阵、海森矩阵。这三个词乍看吓人，实则只是三种衡量变化的方式。

X AI KOLs Timeline ↗ · 2026-05-23 缓存

解释了梯度、雅可比矩阵和海森矩阵作为AI模型训练基础工具的数学概念，描述了它们衡量变化的方式以及各自在优化中的作用。

0 人收藏 0 人点赞

#optimization

从第一性原理出发让深度学习飞速运行

Hacker News Top ↗ · 2026-05-23 缓存

一篇综合性的博客文章，解释如何通过理解三个关键组成部分来优化深度学习性能：计算、内存带宽和开销，利用第一性原理识别性能区间并专注于有效的优化。

0 人收藏 0 人点赞

#optimization

那一次我用Go panic做流程控制

Lobsters Hottest ↗ · 2026-05-23 缓存

一位Go工程师讲述了一次事件：内存数据存储因排序缓慢而超载，他们在排序函数内部实现了上下文取消，使用panic和recover进行非局部流程控制，类似于encoding/json处理错误的方式。

0 人收藏 0 人点赞

#optimization

@charliermarsh: 允许把东西加速几百倍吗？有人知道吗？

X AI KOLs Following ↗ · 2026-05-22 缓存

Charlie Marsh（Ruff 的创建者）以反问的方式询问是否允许将东西加速数百倍，很可能是在提及软件开发工具中的一项重大优化。

0 人收藏 0 人点赞

#optimization

Qwen3.6-35B-A3B Q4 262k上下文，8GB 3070 Ti上可达+30tps

Reddit r/LocalLLaMA ↗ · 2026-05-22

作者分享了在8GB RTX 3070 Ti上使用llama.cpp运行Qwen3.6-35B-A3B MoE模型，实现高达262k上下文、30+tps的详细调优技巧，并指出从Windows切换到Ubuntu Server后速度提升了25%。

0 人收藏 0 人点赞

optimization

提交意见反馈