knowledge-elicitation

#knowledge-elicitation

MechELK：一种用于从大型语言模型中引出潜在知识的机制可解释性框架

arXiv cs.CL ↗ · 2026-05-29 缓存

MechELK 是一个三阶段框架，结合机制可解释性工具（SAE、激活修补、因果探测）与表示工程，从大型语言模型中引出潜在知识，实现了84.7%的准确率，优于CCS和线性探测等现有方法。

0 人收藏 0 人点赞