feature-steering

标签

Cards List
#feature-steering

将RL诱导的工具使用定位到单个Crosscoder特征

arXiv cs.LG · 昨天 缓存

本文使用 Dedicated Feature Crosscoders 将Qwen2.5-3B中RL诱导的工具使用能力定位到单个可操控特征,通过特征操控实现了+65pp的工具正确性,并展示了能力溢出到冻结的基础模型。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈