标签
本文介绍CHERRY,一套用于计算高效语言模型的技术,包括选择性令牌监督、通过循环展开的深度压缩以及混合压缩专家,在韩语基础模型上取得了显著的效率提升。
本文系统研究了语言模型预训练过程中精确文档重复所造成的损害,表明以中等次数重复中等规模的子集对性能的损害最大,并且重复可能导致高达33%的计算浪费(以计算等效损失衡量)。
LayerRoute是一种轻量级适配器,能够根据输入类型在推理过程中选择性跳过Transformer块,通过门控路由和LoRA自适应实现计算节省,同时保持或提升模型质量。在代理语言模型上,它实现了12.91%的跳跃差异。
LVSA 为视频扩散模型引入了一种无训练稀疏注意力机制,将计算量减少高达 3.17 倍,同时能够在训练时长之外进行生成,且无质量损失。
本文介绍了 LBW-Guard,一个位于 AdamW 优化器之上的受限自主训练控制治理层,用于监测遥测数据并在训练过程中施加受限控制,展示了在压力条件下困惑度的改善和训练速度的提升。
讨论了AI渲染视频相比传统渲染在计算效率上具有巨大潜力的可能性,并以《超能陆战队》数百万渲染小时作为基准。
一种使用Qwen-35B-A3B动态分配计算预算给困难问题的方法,在HLE基准测试上达到了接近GPT-5.4-xHigh的性能。
一种面向开源 RL 训练引擎的全新优化技术在训练过程中引入了提示缓存,通过减少冗余计算,在长提示、短回复负载场景下实现了高达 7.5 倍的加速。
基础性实证研究,展示了语言模型性能与模型规模、数据集大小和计算预算之间的幂律缩放关系,对最优训练资源分配和样本效率有重要启示。