标签
本文通过将干预分解为角度和径向分量,分析了语言模型中的线性激活转向。研究发现概念主要编码在角度结构中,但范数调整对稳定性至关重要,支持球形转向方法的同时表明加性系数混淆了几何特性。
本文系统测试了用于大语言模型欺骗检测的线性探头,发现它们在分布偏移下失效,但风格增强型探头能恢复性能,并揭示欺骗是通过分布式亚阈值特征编码的。
讨论AI用到的数学主要是19世纪之前的线性代数、微积分等,但涌现现象如Scaling Law、涌现能力、双下降、情境学习和表示几何缺乏数学解释,类比1900年物理学的乌云,认为可能推动21世纪数学发展。
本文介绍了过度完备推理轨迹中'最小核心'的概念,表明平均可移除46%的步骤同时保留最终答案,并且最小核心改善了轨迹分离并降低了内在维度。
本文介绍了次要分量遗忘(MCU),这是一种针对大语言模型遗忘的新颖方法,通过靶向表征中的次要分量来抵御重学攻击。它通过关注模型谱结构中的鲁棒方向,解决了现有方法的脆弱性问题。