jacobian

#jacobian

DREG：一种作为通用惩罚的逐层雅可比正则化

arXiv cs.LG ↗ · 2026-06-24 缓存

本文对导数正则化（DREG）惩罚进行了大规模实证研究，表明其在高精度和噪声鲁棒性方面表现优异，特别是使用GELU激活函数和数据稀缺场景，将其定位为神经网络的一种通用即插即用正则化器。

0 人收藏 0 人点赞

#jacobian

X AI KOLs Timeline ↗ · 2026-05-23 缓存

解释了梯度、雅可比矩阵和海森矩阵作为AI模型训练基础工具的数学概念，描述了它们衡量变化的方式以及各自在优化中的作用。

0 人收藏 0 人点赞

#jacobian

arXiv cs.LG ↗ · 2026-05-15 缓存

本文对生产规模的大型语言模型进行了完整的 Jacobian 特征分解，揭示了从旋转主导的早期层到对称后期层的习得谱梯度，以及一个压缩扰动的低秩瓶颈。结果将扰动传播与压缩与网络功能拓扑联系起来。

0 人收藏 0 人点赞