transformer-mechanistic-interpretability

标签

Cards List
#transformer-mechanistic-interpretability

Transformer线性表示高度结构化的世界模型

arXiv cs.LG · 2026-05-20

本文证明,在数独求解轨迹上训练的Transformer构建了由领域约束组织的结构化世界模型,并识别出一个稀疏、单语义的电路,负责裸单决策规则。该工作为Transformer在组合任务上的推理提供了完全可解释的算法描述。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈