标签
本文使用 Dedicated Feature Crosscoders 将Qwen2.5-3B中RL诱导的工具使用能力定位到单个可操控特征,通过特征操控实现了+65pp的工具正确性,并展示了能力溢出到冻结的基础模型。