activation-space

#activation-space

主动SAE特征平面是否携带更多和乐？Gemma中的预注册反转

arXiv cs.LG ↗ · 2026-07-24 缓存

这项预注册研究测试了和乐（一种几何度量）是否集中在Gemma 2 2B语言模型的主动SAE特征平面上。与语义集中预测相反，主动特征平面比匹配的混合特征控制平面携带更少的和乐，导致了一个狭窄的操作性反转，其根本原因仍然未知。

0 人收藏 0 人点赞

#activation-space

arXiv cs.LG ↗ · 2026-07-22 缓存

本文介绍了GA-AMLS（一种适应语言模型激活空间的罕见事件蒙特卡洛方法）和SPB损失（一种用于非对称惩罚的正确评分规则），展示了改进的罕见有害输出估计效果。

0 人收藏 0 人点赞

#activation-space

arXiv cs.LG ↗ · 2026-06-09 缓存

本文提出了一种特征空间监测方法，通过在激活空间中跟踪表示漂移来检测LLM在监督微调期间的涌现错位，实现了0.990的AUROC，假阳性率和假阴性率低，优于无监督基线。

0 人收藏 0 人点赞

#activation-space

Hugging Face Daily Papers ↗ · 2026-06-03 缓存

STRIDE是一种用于大型语言模型训练数据归因的新框架，它利用稀疏恢复和引导算子在激活空间中建模功能效应，以13倍于先前方法的速度实现了最先进的准确性。

0 人收藏 0 人点赞

#activation-space

Hugging Face Daily Papers ↗ · 2026-05-28 缓存

UniSteer 提出了一种文本引导的激活流匹配方法，在激活空间中学习通用条件速度场，无需特定任务干预模块即可实现多功能的 LLM 行为控制与分类任务。

0 人收藏 0 人点赞

#activation-space

TLDR AI ↗ · 2026-05-22 缓存

本文探讨了稀疏自动编码器（SAEs）如何捕捉弯曲的神经几何，揭示了SAE特征表示流形的三种不同方式，并提出了一个无监督流程来揭示神经表征中的几何结构。

0 人收藏 0 人点赞