optimization

标签

Cards List
#optimization

输入凸神经网络训练的一种提升方法

arXiv cs.LG · 2026-05-26 缓存

提出了一种用于训练输入凸神经网络(ICNN)的“提升”方法,该方法使用无约束的超网络生成非负的层间权重,从而软化损失景观并避免梯度衰减,相比投影梯度下降和softplus重参数化,实现了更低的测试损失。

0 人收藏 0 人点赞
#optimization

面向LLM赋能代理工作流的可靠设计:优化延迟-可靠性-成本权衡

arXiv cs.AI · 2026-05-26 缓存

本文分析了LLM赋能代理工作流中延迟、可靠性和成本之间的权衡,引入了性能模型,并推导出了如注水令牌分配等最优资源分配策略。

0 人收藏 0 人点赞
#optimization

@dosco: 我看到很多行业论文实际上是Karpathy的自动研究循环(未引用)或是Codex优化目标,旨在改进某个特定事物……

X AI KOLs Timeline · 2026-05-26 缓存

关于近期行业AI论文缺乏新颖性的批判性观察,以SkillOpt为例,这些论文将自然语言技能视为可训练的外部参数。

0 人收藏 0 人点赞
#optimization

体积微小,效果显著:大语言模型中的缩放向量研究

Hugging Face Daily Papers · 2026-05-26 缓存

本文系统地研究了LLM归一化层中的缩放向量,揭示了它们通过自放大预条件效应优化训练,并提出了三种轻量级改进方案,在几乎不增加开销的情况下提升性能和扩展行为。

0 人收藏 0 人点赞
#optimization

为Orange Pi AIPro(Ascend 310B)上的MiniCPM-V 4.6编写自定义C++引擎以绕过框架开销

Reddit r/LocalLLaMA · 2026-05-25

为Orange Pi AIPro(Ascend 310B NPU)上的MiniCPM-V 4.6开发了自定义C++推理引擎,通过为matmul和causal-conv1d编写优化的AscendC内核,实现了相比原始框架2倍的加速,达到5.90 tokens/s。

0 人收藏 0 人点赞
#optimization

基于无调度频谱优化的随时训练

arXiv cs.LG · 2026-05-25 缓存

本文介绍了SF-NorMuon,一种无调度频谱优化器,在参数规模达7.72亿的语言模型上匹配或超越调优后的AdamW,并提供了平稳性和长期稳定性的理论保证。

0 人收藏 0 人点赞
#optimization

解决飞机拆解调度问题

arXiv cs.AI · 2026-05-25 缓存

本文介绍了飞机拆解调度问题,这是一个大规模组合优化任务,涉及数千个任务、先后关系、平衡约束以及有限空间。本文提出了一个约束规划模型和一个MIP模型,并在包含多达1450个任务的实际运营实例上进行了测试。

0 人收藏 0 人点赞
#optimization

DVAO:多奖励强化学习中的动态方差自适应优势优化

Hugging Face Daily Papers · 2026-05-25 缓存

DVAO 根据奖励方差自适应地加权目标,以提升多奖励强化学习的训练稳定性和多目标性能。

0 人收藏 0 人点赞
#optimization

@Italianclownz: 已将 Qwen 3.6 35b a3b 转换为 ROCmfp4,运行飞快。使用了 mtp 版本,因为此 ROCmfp4 也可以融合 MTP 的优势…

X AI KOLs Timeline · 2026-05-24 缓存

将 Qwen 3.6 35b a3b 模型转换为 ROCmfp4 格式,利用 MTP 优势提升 AMD 硬件上的性能。

0 人收藏 0 人点赞
#optimization

@davideciffa: 如果你拥有Nvidia RTX 4090,--ddtree-budget 36是最佳配置,可在解码过程中带来2.5倍速度提升…

X AI KOLs Timeline · 2026-05-24 缓存

一条推文推荐Nvidia RTX 4090使用--ddtree-budget 36,声称在Qwen3.6_27B解码时实现2.5倍加速。

0 人收藏 0 人点赞
#optimization

方向对齐缓解语言模型强化学习中的奖励作弊

Hugging Face Daily Papers · 2026-05-24 缓存

本文通过更新几何研究语言模型强化学习中的奖励作弊,识别出优化漂移是一个关键因素。它提出可信方向投影,将梯度约束在干净的参考子空间内,从而延迟捷径利用并保持任务性能。

0 人收藏 0 人点赞
#optimization

@no_stp_on_snek: @antirez Turbo3 击败 fp8,在32K上下文下解码 tok/s 提升5%,还在调试中,但我一直在你的‘厨房’里折腾 TQ+

X AI KOLs Following · 2026-05-23 缓存

Turbo3 在32K上下文下,相比 fp8 解码速度提升了5%(每秒 tokens 数),这是量化或模型优化方面的性能改进。

0 人收藏 0 人点赞
#optimization

@LigengZhu: 很激动地分享KDA:驱动HAN Lab Kernel Mafia在Kernel Cont中获得#1~3内核排名的Kernel Design Agents……

X AI KOLs Timeline · 2026-05-23 缓存

KDA是一个由智能体驱动的内核设计框架,通过最小化人工参与,帮助HAN Lab在MLSys FlashInfer Kernel Contest中获得顶尖排名。该智能体利用Humanize、KernelWiki和性能分析技能来生成最先进的内核。

0 人收藏 0 人点赞
#optimization

@no_stp_on_snek: 始终从未压缩的k和压缩的V开始,然后更激进地进行。模型家族对k压缩的敏感性不同……

X AI KOLs Following · 2026-05-23 缓存

关于Transformer模型KV缓存压缩的提示:从未压缩的键和压缩的值开始,然后根据模型家族的敏感性进行调整;先尝试非对称压缩,再尝试对称压缩。

0 人收藏 0 人点赞
#optimization

@L1vsun: 我花了3个月打造最优化版克劳德代码设置,结果比第一天还差——23个插件、8个…

X AI KOLs Timeline · 2026-05-23 缓存

一位开发者分享,花了3个月过度优化克劳德代码设置,用了23个插件和多个框架,性能却比第一天还差;删除几乎所有内容后效果大幅提升,强调最小化设置通常最有效。

0 人收藏 0 人点赞
#optimization

@techNmak: 当前训练的每一个AI模型都离不开这套数学基础。梯度、雅可比矩阵、海森矩阵。这三个词乍看吓人,实则只是三种衡量变化的方式。

X AI KOLs Timeline · 2026-05-23 缓存

解释了梯度、雅可比矩阵和海森矩阵作为AI模型训练基础工具的数学概念,描述了它们衡量变化的方式以及各自在优化中的作用。

0 人收藏 0 人点赞
#optimization

从第一性原理出发让深度学习飞速运行

Hacker News Top · 2026-05-23 缓存

一篇综合性的博客文章,解释如何通过理解三个关键组成部分来优化深度学习性能:计算、内存带宽和开销,利用第一性原理识别性能区间并专注于有效的优化。

0 人收藏 0 人点赞
#optimization

那一次我用Go panic做流程控制

Lobsters Hottest · 2026-05-23 缓存

一位Go工程师讲述了一次事件:内存数据存储因排序缓慢而超载,他们在排序函数内部实现了上下文取消,使用panic和recover进行非局部流程控制,类似于encoding/json处理错误的方式。

0 人收藏 0 人点赞
#optimization

@charliermarsh: 允许把东西加速几百倍吗?有人知道吗?

X AI KOLs Following · 2026-05-22 缓存

Charlie Marsh(Ruff 的创建者)以反问的方式询问是否允许将东西加速数百倍,很可能是在提及软件开发工具中的一项重大优化。

0 人收藏 0 人点赞
#optimization

Qwen3.6-35B-A3B Q4 262k上下文,8GB 3070 Ti上可达+30tps

Reddit r/LocalLLaMA · 2026-05-22

作者分享了在8GB RTX 3070 Ti上使用llama.cpp运行Qwen3.6-35B-A3B MoE模型,实现高达262k上下文、30+tps的详细调优技巧,并指出从Windows切换到Ubuntu Server后速度提升了25%。

0 人收藏 0 人点赞
← Previous
Next →
← 返回首页

提交意见反馈