标签
本文从机制上解释了为什么LLMs在长时间的多轮交互中会丢失指令,引入了目标可访问性比率(GAR)指标和通道转换框架。通过消融研究和残差流探针,论文表明,对定义目标词元的注意力会在回合间关闭,而目标信息在残差表示中持续存在,并出现了架构特定的失败模式。