circuit-analysis

标签

Cards List
#circuit-analysis

如何分析探针的相对“强度”?[R]

Reddit r/MachineLearning · 2026-06-17

作者询问如何分析神经网络中探针的相对“强度”,讨论了词汇量有限和模型容量等挑战,并以Google Gemini为例说明了失败情况。

0 人收藏 0 人点赞
#circuit-analysis

语言模型中锚定路径的定位

arXiv cs.CL · 2026-06-12 缓存

本文研究提示中无关数字如何导致语言模型中的锚定效应,并利用基于归因的电路方法在Qwen和Llama模型上定位携带该信号的内部路径。

0 人收藏 0 人点赞
#circuit-analysis

毒性幻觉:扰动提示并追踪LLM电路

arXiv cs.CL · 2026-06-01 缓存

本文研究了提示中的毒性词汇扰动如何降低LLM的事实准确性并增加不确定性,并使用归因图分析追踪内部变化。研究发现,增加毒性会放大对扰动敏感的变异节点,而核心推理节点保持不变。

0 人收藏 0 人点赞
#circuit-analysis

架构而非规模:大语言模型中的电路局部化

arXiv cs.CL · 2026-05-12 缓存

本文挑战了“随着模型规模扩大,机制可解释性变得愈发困难”的假设,表明架构(特别是分组查询注意力与多头注意力之间的差异)对电路局部化和稳定性的影响比参数量更为关键。

0 人收藏 0 人点赞
#circuit-analysis

循旧图而航:大模型后训练中静态机制定位的陷阱

arXiv cs.CL · 2026-05-08 缓存

本文通过证明由于微调期间神经电路的动态演变,静态机制定位并不充分,从而对大模型后训练中的“先定位后更新”范式提出了挑战。它引入了新的指标来分析电路的稳定性,并提出了在机制定位中需要预测性框架。

0 人收藏 0 人点赞
#circuit-analysis

ASGuard:激活缩放防护以缓解针对性越狱攻击

Hugging Face Daily Papers · 2026-04-14 缓存

ASGuard是一种基于机制的防御框架,通过电路分析识别脆弱的注意力头,并应用有针对性的激活缩放和微调,在保持模型能力的同时提高拒绝行为的鲁棒性,从而缓解针对LLM的越狱攻击。

0 人收藏 0 人点赞
#circuit-analysis

通过稀疏电路理解神经网络

OpenAI Blog · 2025-11-13 缓存

OpenAI 研究人员提出了一种训练稀疏神经网络的方法,通过强制大部分权重为零使其更易于解释,从而发现能够解释模型行为的小型解耦电路,同时保持性能。这项工作旨在推进机制可解释性,作为对稠密网络事后分析的补充,并支持 AI 安全目标。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈