标签
本文介绍了 Ember,一种用于嵌入矩阵和语言模型头矩阵的轻量级优化器,它利用梯度几何来提高监督微调、强化学习和预训练中的效率和性能,同时使用的优化器状态远少于 Adam。
本文提出了一种无需下降和对齐的方法来测量训练后神经网络中的奇异结构。该方法从方向Fisher率中恢复死方向的阶数,将真实奇点与平坦规范对称性区分开来,并展示了该技术在Transformer和卷积层上的应用。
本文介绍了退化蒸馏器,一种通过估计和平展费希尔信息矩阵来自动检测和解决物理模型中退化参数组合的方法,该方法减少了神经后验估计所需的模拟预算,同时提供物理洞察。
介绍Fisher宽度,这是统计流形上高斯宽度的黎曼类比,它捕捉局部统计曲率且在重参数化下不变。本文发展了其理论,证明了Fisher-Lipschitz类别的泛化界,并在MNIST上展示了可计算估计量。
本文提出了一种基于Fisher信息矩阵谱范数的攻击无关鲁棒性度量,为深度神经网络提供了理论边界和可扩展的评估方法。
FoRA提出了一种参数高效微调方法,通过Fisher评分选择任务相关层,并在Stiefel流形上训练LoRA下投影,在保持精度的同时减少参数。
开发者构建了 Arc Gate——一款基于 Fisher 信息流形几何的 LLM 监控代理,可在会话层面检测提示注入攻击,通过追踪 t 值相对相变阈值 t*=1.2247 的变化,识别 Crescendo 式渐进操控,而非逐句关键词匹配。