标签
本文研究了语言模型代理能否自动化机械可解释性中的解释阶段,为此引入了AgenticInterpBench基准(包含84个半合成电路)和HyVE解释器(通过迭代假设、验证和解释电路组件)。实验显示出潜力,但可靠的验证仍是关键障碍。