circuit-analysis

#circuit-analysis

如何分析探针的相对“强度”？[R]

Reddit r/MachineLearning ↗ · 2026-06-17

作者询问如何分析神经网络中探针的相对“强度”，讨论了词汇量有限和模型容量等挑战，并以Google Gemini为例说明了失败情况。

0 人收藏 0 人点赞

#circuit-analysis

arXiv cs.CL ↗ · 2026-06-12 缓存

本文研究提示中无关数字如何导致语言模型中的锚定效应，并利用基于归因的电路方法在Qwen和Llama模型上定位携带该信号的内部路径。

0 人收藏 0 人点赞

#circuit-analysis

arXiv cs.CL ↗ · 2026-06-01 缓存

本文研究了提示中的毒性词汇扰动如何降低LLM的事实准确性并增加不确定性，并使用归因图分析追踪内部变化。研究发现，增加毒性会放大对扰动敏感的变异节点，而核心推理节点保持不变。

0 人收藏 0 人点赞

#circuit-analysis

arXiv cs.CL ↗ · 2026-05-12 缓存

本文挑战了“随着模型规模扩大，机制可解释性变得愈发困难”的假设，表明架构（特别是分组查询注意力与多头注意力之间的差异）对电路局部化和稳定性的影响比参数量更为关键。

0 人收藏 0 人点赞

#circuit-analysis

arXiv cs.CL ↗ · 2026-05-08 缓存

本文通过证明由于微调期间神经电路的动态演变，静态机制定位并不充分，从而对大模型后训练中的“先定位后更新”范式提出了挑战。它引入了新的指标来分析电路的稳定性，并提出了在机制定位中需要预测性框架。

0 人收藏 0 人点赞

#circuit-analysis

Hugging Face Daily Papers ↗ · 2026-04-14 缓存

ASGuard是一种基于机制的防御框架，通过电路分析识别脆弱的注意力头，并应用有针对性的激活缩放和微调，在保持模型能力的同时提高拒绝行为的鲁棒性，从而缓解针对LLM的越狱攻击。

0 人收藏 0 人点赞

#circuit-analysis

OpenAI Blog ↗ · 2025-11-13 缓存

OpenAI 研究人员提出了一种训练稀疏神经网络的方法,通过强制大部分权重为零使其更易于解释,从而发现能够解释模型行为的小型解耦电路,同时保持性能。这项工作旨在推进机制可解释性,作为对稠密网络事后分析的补充,并支持 AI 安全目标。

0 人收藏 0 人点赞