sparse-autoencoders

#sparse-autoencoders

稀疏自编码器中特征饥饿的几何不稳定性

arXiv cs.LG ↗ · 2026-05-08 缓存

本文将稀疏自编码器中的特征饥饿识别为一种几何不稳定性，并提出自适应弹性网络 SAE（AEN-SAE）来在不依赖启发式方法的情况下缓解该问题。

0 人收藏 0 人点赞

#sparse-autoencoders

特征组合的结构不稳定性

arXiv cs.LG ↗ · 2026-05-08 缓存

本文提出了一个几何框架来分析稀疏自编码器中特征组合的不稳定性，揭示了非线性导致棘轮效应，从而在超过临界密度时引发组合坍塌。

0 人收藏 0 人点赞

#sparse-autoencoders

SLAM：面向语言模型的结构语言激活标记

arXiv cs.CL ↗ · 2026-05-08 缓存

SLAM 是一种新颖的白盒水印方案，利用稀疏自编码器将标记嵌入 LLM 残差流的结构几何中，在 Gemma-2 模型上实现了 100% 的检测准确率，且质量损失极小，避免了先前方法对 token 分布的偏置。

0 人收藏 1 人点赞

#sparse-autoencoders

HalluSAE：利用稀疏自编码器检测大型语言模型中的幻觉

arXiv cs.CL ↗ · 2026-04-21 缓存

北京航空航天大学等机构的研究人员提出了HalluSAE，这是一个结合稀疏自编码器与相变理论的框架。该框架通过将生成过程建模为穿越势能地形的轨迹，来检测大型语言模型（LLM）中的幻觉，并精准定位发生事实性错误的关键过渡区域。

0 人收藏 0 人点赞

#sparse-autoencoders

# 理解与防止失调泛化来源：[https://openai.com/index/emergent-misalignment/](https://openai.com/index/emergent-misalignment/) 一个失调的人格特征控制着浮现的失调。像ChatGPT这样的大型语言模型不仅学习事实——它们还会捕捉行为模式。这意味着它们可以根据训练内容开始表现得像不同的“人格”或类型的人。其中一些人格是有益且

0 人收藏 0 人点赞

#sparse-autoencoders

从 GPT-4 中提取概念

OpenAI Blog ↗ · 2024-06-06 缓存

OpenAI 推出稀疏自编码器作为从 GPT-4 等大型语言模型中提取和解释概念的方法，解决了理解神经网络行为这一根本挑战。他们发布了研究论文、代码和特征可视化工具，帮助研究人员大规模训练自编码器，并通过更好的可解释性提高 AI 安全性。

0 人收藏 0 人点赞

sparse-autoencoders

稀疏自编码器中特征饥饿的几何不稳定性

特征组合的结构不稳定性

SLAM：面向语言模型的结构语言激活标记

HalluSAE：利用稀疏自编码器检测大型语言模型中的幻觉

理解与防止失调泛化

从 GPT-4 中提取概念

提交意见反馈