标签
本研究探讨了大型语言模型中的功能性元认知,证明诸如评估意识和自我评估能力等内部状态可以从残差流激活中线性解码。作者提出了一个机械机制框架来引导这些状态,展示了对推理行为、冗长度及安全响应的因果控制。