ICA Lens:无需训练另一个字典即可解读语言模型

Hugging Face Daily Papers 论文

摘要

ICA Lens 重新引入独立成分分析作为解读语言模型表示的高效方法,提供了一种比稀疏自编码器训练更快的替代方案,同时保持有竞争力的性能。

在语言模型表示中找到可解读的方向对于理解和控制模型行为至关重要。稀疏自编码器(SAE)已成为实现这一目标的标准工具,但将其作为默认的初始透镜通常需要训练、存储和评估大型过完备字典。这一瓶颈限制了快速探索,并引发了一个基本问题:在训练另一个神经字典之前,从激活几何结构中已经能看到多少可解读结构?我们的直觉很简单:许多可解读方向对标记具有选择性,并且这些方向应该比随机方向更不像高斯分布。因此,我们重新审视独立成分分析(ICA)——一种寻找非高斯方向的经典方法——作为语言模型可解释性的紧凑透镜。我们发现ICA在LLM可解释性方面被低估了,因为先前的使用通常依赖于现成的ICA实现,这些实现在LLM激活上不够稳健,并且缺乏检查和评估恢复方向的系统工具。为弥补这些不足,我们推出了ICALens,这是首个用于对LLM表示进行稳定、高效和可审计ICA分析的实用工作流。它结合了优化的GPU并行FastICA流水线、针对LLM的稳定性配方以及更好的拟合诊断,实现了高效可靠的分层分析。在GPT-2 Small、Gemma 2 2B和Qwen 3.5 2B Base上,ICALens在不进行逐层基于梯度的字典训练的情况下,高效地恢复了紧凑、可人工解读的方向。在SAEBench上,ICA在稀疏探测方面与公开SAE具有竞争力,并在小到中等预算下在目标探测扰动方面优于它们。这些结果表明,ICA不应被视为一个弱基线,而应被视为用于探索语言模型表示的高效且互补的初始透镜。
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:41

论文页面 - ICA Lens:无需额外训练字典即可解释语言模型

来源:https://huggingface.co/papers/2606.11722

摘要

独立成分分析 (ICA) 作为一种在语言模型表示中发现可解释方向的高效方法重新受到重视,它为稀疏自编码器训练提供了一种更快的替代方案,同时在探针任务中保持了有竞争力的性能。

在语言模型表示 (https://huggingface.co/papers?q=language-model%20representations) 中发现可解释方向 (https://huggingface.co/papers?q=ica) 对于理解和控制模型行为至关重要。稀疏自编码器 (https://huggingface.co/papers?q=Sparse%20autoencoders) (SAE) 已成为实现此目的的标准工具,但将其作为默认的第一视角通常需要训练、存储和评估大型过完备字典。这一瓶颈限制了快速探索,并提出了一个根本性问题:在训练另一个神经字典之前,有多少可解释结构已经从激活几何 (https://huggingface.co/papers?q=activation%20geometry) 中可见?我们的直觉很简单:许多可解释方向对token具有选择性,而这些方向看起来应该比随机方向更不服从高斯分布。因此,我们重新审视独立成分分析 (https://huggingface.co/papers?q=independent%20component%20analysis) (ICA (https://huggingface.co/papers?q=ICA)),一种用于寻找非高斯方向 (https://huggingface.co/papers?q=Gaussian%20directions) 的经典方法,将其作为语言模型可解释性的紧凑视角。我们发现ICA (https://huggingface.co/papers?q=ICA) 在LLM可解释性 (https://huggingface.co/papers?q=LLM%20interpretability) 方面一直被低估,因为先前的使用通常依赖于现成的ICA (https://huggingface.co/papers?q=ICA) 实现,这些实现在LLM激活上表现脆弱,并且缺乏系统化的工具来检查和评估恢复出的方向。为弥补这些差距,我们引入了ICA (https://huggingface.co/papers?q=ICA)Lens,这是第一个用于对LLM表示进行稳定、高效且可审计的ICA (https://huggingface.co/papers?q=ICA) 分析的实用工作流。它结合了优化的GPU并行FastICA (https://huggingface.co/papers?q=FastICA) 流程与针对LLM的稳定性方案以及更好的拟合诊断指标,实现了高效可靠的逐层分析。在GPT-2 Small、Gemma 2 2B和Qwen 3.5 2B Base上,ICA (https://huggingface.co/papers?q=ICA)Lens 高效地恢复出紧凑、人类可解释的方向,无需逐层基于梯度的字典训练。在SAEBench (https://huggingface.co/papers?q=SAEBench)上,ICA (https://huggingface.co/papers?q=ICA) 在稀疏探针 (https://huggingface.co/papers?q=sparse%20probing) 方面与公开的SAE具有竞争力,并且在中小预算下,在定向探针扰动 (https://huggingface.co/papers?q=targeted%20probe%20perturbation) 方面优于它们。这些结果表明,ICA (https://huggingface.co/papers?q=ICA) 不应被视为一个弱基线,而应被视为探索语言模型表示 (https://huggingface.co/papers?q=language-model%20representations) 的高效且互补的第一视角。

查看 arXiv 页面 (https://arxiv.org/abs/2606.11722) 查看 PDF (https://arxiv.org/pdf/2606.11722) 项目页面 (https://liusida.github.io/ica-lens-paper/) GitHub20 (https://github.com/liusida/ica-lens-paper) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.11722)

在您的 agent 中获取此论文:

hf papers read 2606.11722

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

没有模型与此论文关联

在模型 README.md 中引用 arxiv.org/abs/2606.11722 以从此页面链接它。

引用该论文的数据集 1

sida/ica-lens-paper 大约12小时前更新 • 37 (https://huggingface.co/datasets/sida/ica-lens-paper)

引用该论文的 Space 1

包含该论文的收藏 1

相似文章

Query Lens:利用间接效应解释稀疏键值特征

arXiv cs.LG

Query Lens 扩展了 Logit Lens,通过联合考虑编码器侧的键特征和解码器侧的值特征,并计入来自下游模块的间接效应,来解释稀疏自编码器特征。该论文还提出了子空间通道假说,表明下游模块通过特定层的子空间读取特征。

Lens:重新思考基础文本到图像模型的训练效率

Hugging Face Daily Papers

Lens是微软推出的一款紧凑型38亿参数文本到图像模型,在训练计算量显著降低的同时,通过密集描述、多分辨率批处理和高效架构,达到了与更大模型竞争甚至超越的性能。

KODA:面向视觉-语言基础模型的对比表示比较与对齐

arXiv cs.LG

本文介绍了KODA(Kernel Optimization for Discrepancy Analysis,差异分析核优化),一种基于核的框架,用于比较和对齐视觉-语言模型表示,通过识别在CLIP、SigLIP和BLIP等模型中聚类方式不同的样本子集。该方法使用对比嵌入聚类和随机低维近似,能够扩展到大型数据集,同时提供表示之间可解释的结构差异。

ModelLens:从海量模型中为特定任务甄选最优解

Hugging Face Daily Papers

ModelLens 是一个统一框架,通过利用公开排行榜数据为未见数据集推荐 AI 模型,从而避免了昂贵的直接评估需求。该框架构建了一个性能感知的潜在空间,以在多样化任务中对候选模型进行排序,并在大规模基准测试中超越了现有基线方法。