标签
引入平滑最大均值差异(SMMD),一种损失函数,通过核匹配和基于图的平滑性将预测数值分布与目标对齐,提高了LLM在多个任务中的数值预测准确性。
本文证明了在高阶光滑非凸优化中寻找ε-稳定点的无维数尖锐一阶下界,解决了Hessian-Lipschitz和三阶光滑情况下的公开问题。
本文将非均匀光滑性假设推广到曲率与目标值呈仿射关系的目标函数,证明了最速下降法以及RMSProp和Adam的对角变体的收敛速率,并应用于逻辑回归和神经网络。
本文探讨了极低量化大语言模型中的平滑性退化问题,认为除了数值精度外,保持平滑性对于维持模型性能至关重要。