ICA Lens：无需训练另一个字典即可解读语言模型

Hugging Face Daily Papers 2026/06/10 00:00 论文

摘要

ICA Lens 重新引入独立成分分析作为解读语言模型表示的高效方法，提供了一种比稀疏自编码器训练更快的替代方案，同时保持有竞争力的性能。

在语言模型表示中找到可解读的方向对于理解和控制模型行为至关重要。稀疏自编码器（SAE）已成为实现这一目标的标准工具，但将其作为默认的初始透镜通常需要训练、存储和评估大型过完备字典。这一瓶颈限制了快速探索，并引发了一个基本问题：在训练另一个神经字典之前，从激活几何结构中已经能看到多少可解读结构？我们的直觉很简单：许多可解读方向对标记具有选择性，并且这些方向应该比随机方向更不像高斯分布。因此，我们重新审视独立成分分析（ICA）——一种寻找非高斯方向的经典方法——作为语言模型可解释性的紧凑透镜。我们发现ICA在LLM可解释性方面被低估了，因为先前的使用通常依赖于现成的ICA实现，这些实现在LLM激活上不够稳健，并且缺乏检查和评估恢复方向的系统工具。为弥补这些不足，我们推出了ICALens，这是首个用于对LLM表示进行稳定、高效和可审计ICA分析的实用工作流。它结合了优化的GPU并行FastICA流水线、针对LLM的稳定性配方以及更好的拟合诊断，实现了高效可靠的分层分析。在GPT-2 Small、Gemma 2 2B和Qwen 3.5 2B Base上，ICALens在不进行逐层基于梯度的字典训练的情况下，高效地恢复了紧凑、可人工解读的方向。在SAEBench上，ICA在稀疏探测方面与公开SAE具有竞争力，并在小到中等预算下在目标探测扰动方面优于它们。这些结果表明，ICA不应被视为一个弱基线，而应被视为用于探索语言模型表示的高效且互补的初始透镜。

查看原文

查看缓存全文

缓存时间: 2026/06/11 13:41

论文页面 - ICA Lens：无需额外训练字典即可解释语言模型

来源：https://huggingface.co/papers/2606.11722

摘要

独立成分分析 (ICA) 作为一种在语言模型表示中发现可解释方向的高效方法重新受到重视，它为稀疏自编码器训练提供了一种更快的替代方案，同时在探针任务中保持了有竞争力的性能。

在语言模型表示 (https://huggingface.co/papers?q=language-model%20representations) 中发现可解释方向 (https://huggingface.co/papers?q=ica) 对于理解和控制模型行为至关重要。稀疏自编码器 (https://huggingface.co/papers?q=Sparse%20autoencoders) (SAE) 已成为实现此目的的标准工具，但将其作为默认的第一视角通常需要训练、存储和评估大型过完备字典。这一瓶颈限制了快速探索，并提出了一个根本性问题：在训练另一个神经字典之前，有多少可解释结构已经从激活几何 (https://huggingface.co/papers?q=activation%20geometry) 中可见？我们的直觉很简单：许多可解释方向对token具有选择性，而这些方向看起来应该比随机方向更不服从高斯分布。因此，我们重新审视独立成分分析 (https://huggingface.co/papers?q=independent%20component%20analysis) (ICA (https://huggingface.co/papers?q=ICA))，一种用于寻找非高斯方向 (https://huggingface.co/papers?q=Gaussian%20directions) 的经典方法，将其作为语言模型可解释性的紧凑视角。我们发现ICA (https://huggingface.co/papers?q=ICA) 在LLM可解释性 (https://huggingface.co/papers?q=LLM%20interpretability) 方面一直被低估，因为先前的使用通常依赖于现成的ICA (https://huggingface.co/papers?q=ICA) 实现，这些实现在LLM激活上表现脆弱，并且缺乏系统化的工具来检查和评估恢复出的方向。为弥补这些差距，我们引入了ICA (https://huggingface.co/papers?q=ICA)Lens，这是第一个用于对LLM表示进行稳定、高效且可审计的ICA (https://huggingface.co/papers?q=ICA) 分析的实用工作流。它结合了优化的GPU并行FastICA (https://huggingface.co/papers?q=FastICA) 流程与针对LLM的稳定性方案以及更好的拟合诊断指标，实现了高效可靠的逐层分析。在GPT-2 Small、Gemma 2 2B和Qwen 3.5 2B Base上，ICA (https://huggingface.co/papers?q=ICA)Lens 高效地恢复出紧凑、人类可解释的方向，无需逐层基于梯度的字典训练。在SAEBench (https://huggingface.co/papers?q=SAEBench)上，ICA (https://huggingface.co/papers?q=ICA) 在稀疏探针 (https://huggingface.co/papers?q=sparse%20probing) 方面与公开的SAE具有竞争力，并且在中小预算下，在定向探针扰动 (https://huggingface.co/papers?q=targeted%20probe%20perturbation) 方面优于它们。这些结果表明，ICA (https://huggingface.co/papers?q=ICA) 不应被视为一个弱基线，而应被视为探索语言模型表示 (https://huggingface.co/papers?q=language-model%20representations) 的高效且互补的第一视角。

查看 arXiv 页面 (https://arxiv.org/abs/2606.11722) 查看 PDF (https://arxiv.org/pdf/2606.11722) 项目页面 (https://liusida.github.io/ica-lens-paper/) GitHub20 (https://github.com/liusida/ica-lens-paper) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.11722)

在您的 agent 中获取此论文：

hf papers read 2606.11722

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

没有模型与此论文关联

在模型 README.md 中引用 arxiv.org/abs/2606.11722 以从此页面链接它。

ICA Lens：无需训练另一个字典即可解读语言模型

论文页面 - ICA Lens：无需额外训练字典即可解释语言模型

摘要

引用该论文的模型 0

引用该论文的数据集 1

sida/ica-lens-paper 大约12小时前更新 • 37 (https://huggingface.co/datasets/sida/ica-lens-paper)

引用该论文的 Space 1

包含该论文的收藏 1

相似文章

Query Lens：利用间接效应解释稀疏键值特征

大语言模型在上下文学习中重组表征几何结构

Lens：重新思考基础文本到图像模型的训练效率

KODA：面向视觉-语言基础模型的对比表示比较与对齐

ModelLens：从海量模型中为特定任务甄选最优解

提交意见反馈