representation-engineering

标签

Cards List
#representation-engineering

解构并引导大型语言模型中的功能性元认知

arXiv cs.CL · 昨天 缓存

本研究探讨了大型语言模型中的功能性元认知,证明诸如评估意识和自我评估能力等内部状态可以从残差流激活中线性解码。作者提出了一个机械机制框架来引导这些状态,展示了对推理行为、冗长度及安全响应的因果控制。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈