标签
本文通过证明由于微调期间神经电路的动态演变,静态机制定位并不充分,从而对大模型后训练中的“先定位后更新”范式提出了挑战。它引入了新的指标来分析电路的稳定性,并提出了在机制定位中需要预测性框架。
ASGuard是一种基于机制的防御框架,通过电路分析识别脆弱的注意力头,并应用有针对性的激活缩放和微调,在保持模型能力的同时提高拒绝行为的鲁棒性,从而缓解针对LLM的越狱攻击。
OpenAI 研究人员提出了一种训练稀疏神经网络的方法,通过强制大部分权重为零使其更易于解释,从而发现能够解释模型行为的小型解耦电路,同时保持性能。这项工作旨在推进机制可解释性,作为对稠密网络事后分析的补充,并支持 AI 安全目标。