transformer-internals

标签

Cards List
#transformer-internals

思维的谱几何:相变、指令反转、Token级动力学与Transformers推理中的完美正确性预测

arXiv cs.LG · 2026-04-20 缓存

对11个大型语言模型的全面谱分析,揭示了Transformers在推理与事实回忆过程中隐层激活空间中的相变现象,发现了七个基本现象,包括谱压缩、指令微调反转以及仅基于谱特性的完美正确性预测(AUC=1.0)。

0 人收藏 0 人点赞
#transformer-internals

幻觉作为轨迹承诺:Transformer生成中非对称吸引子动力学的因果证据

arXiv cs.CL · 2026-04-20 缓存

本文提供因果证据表明自回归语言模型中的幻觉源于由非对称吸引子动力学驱动的早期轨迹承诺。通过在Qwen2.5-1.5B上进行同提示分叉和激活补丁实验,证明幻觉轨迹在首个token处分叉,并在模型各层间展现强烈的因果非对称性。

0 人收藏 0 人点赞
#transformer-internals

揭示大语言模型中的数学推理:内部机制的方法学研究

arXiv cs.CL · 2026-04-20 缓存

本文通过早期解码分析大语言模型的内部机制,研究其如何执行算术运算。研究发现,能力强的模型在推理任务中,注意力模块和 MLP 模块之间呈现明确的分工。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈