transformer-interpretability

标签

Cards List
#transformer-interpretability

Bag of Dims: 基于维度级符号模式的无需训练机制可解释性

Hugging Face Daily Papers · 2026-06-17 缓存

提出了Bag of Dims框架,表明Transformer隐藏状态的标准基提供了一种无需训练、架构通用的特征表示,其中维度通过符号模式编码语义内容;在语言、视觉和音频模型上得到验证,无需学习旋转即可实现高精度。

0 人收藏 0 人点赞
#transformer-interpretability

MechRL:强化学习代理用于机制可解释性中的电路发现

arXiv cs.LG · 2026-05-27 缓存

提出了 MechRL,一种利用强化学习自动发现 transformer 语言模型中电路的方案。经过多任务训练的 PPO 代理发现了与已知典型电路匹配的注意力头电路,并能泛化到一项保留任务上。

0 人收藏 0 人点赞
#transformer-interpretability

前沿叠加的出现:Möbius吸引子与级联监督

arXiv cs.LG · 2026-05-20

本文确定了Möbius吸引子和级联监督是Transformer中叠加推理出现的关键机制,填补了图可达性任务中梯度下降收敛的理论空白。

0 人收藏 0 人点赞
#transformer-interpretability

@Propriocetive: 新预印本:《Mathematics is All You Need 2》—— Transformer 残差流中的符号稳定行为纤维。头条结果……

X AI KOLs Following · 2026-05-10

新预印本《Mathematics is All You Need 2》提出了“双通道定理”,证明 Transformer 残差流中的行为纤维在不同架构(从 Qwen 到 Llama)间具有符号稳定性且可因果操控。该研究声称具有高可复现性,并显示行为基底接近一维,从而将生成过程与潜在结构分离开来。

1 人收藏 1 人点赞
#transformer-interpretability

大型视觉-语言模型在注意力机制中迷失

arXiv cs.AI · 2026-05-08 缓存

这篇研究论文利用信息论分析了大型视觉-语言模型(LVLM)的内部机制,揭示了注意力机制可能存在冗余,而前馈网络才是推动语义创新的关键。作者证明,将学习到的注意力权重替换为随机值仍可获得相当的性能,这表明当前模型“在注意力中迷失”。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈