标签
作者询问如何分析神经网络中探针的相对“强度”,讨论了词汇量有限和模型容量等挑战,并以Google Gemini为例说明了失败情况。
本文研究提示中无关数字如何导致语言模型中的锚定效应,并利用基于归因的电路方法在Qwen和Llama模型上定位携带该信号的内部路径。
本文研究了提示中的毒性词汇扰动如何降低LLM的事实准确性并增加不确定性,并使用归因图分析追踪内部变化。研究发现,增加毒性会放大对扰动敏感的变异节点,而核心推理节点保持不变。
本文挑战了“随着模型规模扩大,机制可解释性变得愈发困难”的假设,表明架构(特别是分组查询注意力与多头注意力之间的差异)对电路局部化和稳定性的影响比参数量更为关键。
本文通过证明由于微调期间神经电路的动态演变,静态机制定位并不充分,从而对大模型后训练中的“先定位后更新”范式提出了挑战。它引入了新的指标来分析电路的稳定性,并提出了在机制定位中需要预测性框架。
ASGuard是一种基于机制的防御框架,通过电路分析识别脆弱的注意力头,并应用有针对性的激活缩放和微调,在保持模型能力的同时提高拒绝行为的鲁棒性,从而缓解针对LLM的越狱攻击。
OpenAI 研究人员提出了一种训练稀疏神经网络的方法,通过强制大部分权重为零使其更易于解释,从而发现能够解释模型行为的小型解耦电路,同时保持性能。这项工作旨在推进机制可解释性,作为对稠密网络事后分析的补充,并支持 AI 安全目标。