jacobian

标签

Cards List
#jacobian

DREG:一种作为通用惩罚的逐层雅可比正则化

arXiv cs.LG · 2026-06-24 缓存

本文对导数正则化(DREG)惩罚进行了大规模实证研究,表明其在高精度和噪声鲁棒性方面表现优异,特别是使用GELU激活函数和数据稀缺场景,将其定位为神经网络的一种通用即插即用正则化器。

0 人收藏 0 人点赞
#jacobian

@techNmak: 当前训练的每一个AI模型都离不开这套数学基础。梯度、雅可比矩阵、海森矩阵。这三个词乍看吓人,实则只是三种衡量变化的方式。

X AI KOLs Timeline · 2026-05-23 缓存

解释了梯度、雅可比矩阵和海森矩阵作为AI模型训练基础工具的数学概念,描述了它们衡量变化的方式以及各自在优化中的作用。

0 人收藏 0 人点赞
#jacobian

Transformer 残差流的动力学:谱几何与网络拓扑的耦合

arXiv cs.LG · 2026-05-15 缓存

本文对生产规模的大型语言模型进行了完整的 Jacobian 特征分解,揭示了从旋转主导的早期层到对称后期层的习得谱梯度,以及一个压缩扰动的低秩瓶颈。结果将扰动传播与压缩与网络功能拓扑联系起来。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈