knowledge-elicitation

标签

Cards List
#knowledge-elicitation

MechELK:一种用于从大型语言模型中引出潜在知识的机制可解释性框架

arXiv cs.CL · 2026-05-29 缓存

MechELK 是一个三阶段框架,结合机制可解释性工具(SAE、激活修补、因果探测)与表示工程,从大型语言模型中引出潜在知识,实现了84.7%的准确率,优于CCS和线性探测等现有方法。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈