lm-agents

#lm-agents

语言模型代理能否成为机械可解释性中有用的电路解释器？

arXiv cs.AI ↗ · 5天前缓存

本文研究了语言模型代理能否自动化机械可解释性中的解释阶段，为此引入了AgenticInterpBench基准（包含84个半合成电路）和HyVE解释器（通过迭代假设、验证和解释电路组件）。实验显示出潜力，但可靠的验证仍是关键障碍。

0 人收藏 0 人点赞