transformer-interpretability

#transformer-interpretability

Bag of Dims: 基于维度级符号模式的无需训练机制可解释性

Hugging Face Daily Papers ↗ · 2026-06-17 缓存

提出了Bag of Dims框架，表明Transformer隐藏状态的标准基提供了一种无需训练、架构通用的特征表示，其中维度通过符号模式编码语义内容；在语言、视觉和音频模型上得到验证，无需学习旋转即可实现高精度。

0 人收藏 0 人点赞

#transformer-interpretability

arXiv cs.LG ↗ · 2026-05-27 缓存

提出了 MechRL，一种利用强化学习自动发现 transformer 语言模型中电路的方案。经过多任务训练的 PPO 代理发现了与已知典型电路匹配的注意力头电路，并能泛化到一项保留任务上。

0 人收藏 0 人点赞

#transformer-interpretability

arXiv cs.LG ↗ · 2026-05-20

本文确定了Möbius吸引子和级联监督是Transformer中叠加推理出现的关键机制，填补了图可达性任务中梯度下降收敛的理论空白。

0 人收藏 0 人点赞

#transformer-interpretability

X AI KOLs Following ↗ · 2026-05-10

新预印本《Mathematics is All You Need 2》提出了“双通道定理”，证明 Transformer 残差流中的行为纤维在不同架构（从 Qwen 到 Llama）间具有符号稳定性且可因果操控。该研究声称具有高可复现性，并显示行为基底接近一维，从而将生成过程与潜在结构分离开来。

1 人收藏 1 人点赞

#transformer-interpretability

arXiv cs.AI ↗ · 2026-05-08 缓存

这篇研究论文利用信息论分析了大型视觉-语言模型（LVLM）的内部机制，揭示了注意力机制可能存在冗余，而前馈网络才是推动语义创新的关键。作者证明，将学习到的注意力权重替换为随机值仍可获得相当的性能，这表明当前模型“在注意力中迷失”。

0 人收藏 0 人点赞