标签
本文分析了离散参数空间中采用确定性或随机舍入的梯度下降(GD)和随机梯度下降(SGD)的泛化误差、一致稳定性和一致参数稳定性,表明舍入会降低GD的泛化性能,并为随机舍入引入了维度相关的误差。
探讨当应用于非规格化浮点数时,floor和ceil函数的行为,强调CPU和GPU实现之间的差异及潜在陷阱。