标签
SkillOpt introduces a systematic controllable text-space optimizer that enables AI agents to train and improve their own skills (like 'work instructions') through iterative edits and validation, outperforming human-crafted and one-shot prompts across multiple benchmarks and models.
本文推导了在幂律谱下素描线性回归的批量缩放定律,分析了单次和多次遍历的小批量SGD。它提供了明确的风险分解,展示了批量大小如何影响偏差、方差和波动项,并证明了无放回采样比有放回采样产生更低的噪声。
提出了一种用于训练输入凸神经网络(ICNN)的“提升”方法,该方法使用无约束的超网络生成非负的层间权重,从而软化损失景观并避免梯度衰减,相比投影梯度下降和softplus重参数化,实现了更低的测试损失。
本文分析了LLM赋能代理工作流中延迟、可靠性和成本之间的权衡,引入了性能模型,并推导出了如注水令牌分配等最优资源分配策略。
关于近期行业AI论文缺乏新颖性的批判性观察,以SkillOpt为例,这些论文将自然语言技能视为可训练的外部参数。
本文系统地研究了LLM归一化层中的缩放向量,揭示了它们通过自放大预条件效应优化训练,并提出了三种轻量级改进方案,在几乎不增加开销的情况下提升性能和扩展行为。
为Orange Pi AIPro(Ascend 310B NPU)上的MiniCPM-V 4.6开发了自定义C++推理引擎,通过为matmul和causal-conv1d编写优化的AscendC内核,实现了相比原始框架2倍的加速,达到5.90 tokens/s。
本文介绍了SF-NorMuon,一种无调度频谱优化器,在参数规模达7.72亿的语言模型上匹配或超越调优后的AdamW,并提供了平稳性和长期稳定性的理论保证。
本文介绍了飞机拆解调度问题,这是一个大规模组合优化任务,涉及数千个任务、先后关系、平衡约束以及有限空间。本文提出了一个约束规划模型和一个MIP模型,并在包含多达1450个任务的实际运营实例上进行了测试。
将 Qwen 3.6 35b a3b 模型转换为 ROCmfp4 格式,利用 MTP 优势提升 AMD 硬件上的性能。
一条推文推荐Nvidia RTX 4090使用--ddtree-budget 36,声称在Qwen3.6_27B解码时实现2.5倍加速。
本文通过更新几何研究语言模型强化学习中的奖励作弊,识别出优化漂移是一个关键因素。它提出可信方向投影,将梯度约束在干净的参考子空间内,从而延迟捷径利用并保持任务性能。
Turbo3 在32K上下文下,相比 fp8 解码速度提升了5%(每秒 tokens 数),这是量化或模型优化方面的性能改进。
KDA是一个由智能体驱动的内核设计框架,通过最小化人工参与,帮助HAN Lab在MLSys FlashInfer Kernel Contest中获得顶尖排名。该智能体利用Humanize、KernelWiki和性能分析技能来生成最先进的内核。
关于Transformer模型KV缓存压缩的提示:从未压缩的键和压缩的值开始,然后根据模型家族的敏感性进行调整;先尝试非对称压缩,再尝试对称压缩。
一位开发者分享,花了3个月过度优化克劳德代码设置,用了23个插件和多个框架,性能却比第一天还差;删除几乎所有内容后效果大幅提升,强调最小化设置通常最有效。
解释了梯度、雅可比矩阵和海森矩阵作为AI模型训练基础工具的数学概念,描述了它们衡量变化的方式以及各自在优化中的作用。
一篇综合性的博客文章,解释如何通过理解三个关键组成部分来优化深度学习性能:计算、内存带宽和开销,利用第一性原理识别性能区间并专注于有效的优化。
一位Go工程师讲述了一次事件:内存数据存储因排序缓慢而超载,他们在排序函数内部实现了上下文取消,使用panic和recover进行非局部流程控制,类似于encoding/json处理错误的方式。