activation-space

标签

Cards List
#activation-space

监督微调中涌现错位的特征空间监测

arXiv cs.LG · 2天前 缓存

本文提出了一种特征空间监测方法,通过在激活空间中跟踪表示漂移来检测LLM在监督微调期间的涌现错位,实现了0.990的AUROC,假阳性率和假阴性率低,优于无监督基线。

0 人收藏 0 人点赞
#activation-space

STRIDE:通过子集扰动的稀疏恢复进行训练数据归因

Hugging Face Daily Papers · 2026-06-03 缓存

STRIDE是一种用于大型语言模型训练数据归因的新框架,它利用稀疏恢复和引导算子在激活空间中建模功能效应,以13倍于先前方法的速度实现了最先进的准确性。

0 人收藏 0 人点赞
#activation-space

UniSteer:文本引导的激活空间流匹配实现多功能大语言模型操控

Hugging Face Daily Papers · 2026-05-28 缓存

UniSteer 提出了一种文本引导的激活流匹配方法,在激活空间中学习通用条件速度场,无需特定任务干预模块即可实现多功能的 LLM 行为控制与分类任务。

0 人收藏 0 人点赞
#activation-space

SAEs 能否捕捉神经几何?(6分钟阅读)

TLDR AI · 2026-05-22 缓存

本文探讨了稀疏自动编码器(SAEs)如何捕捉弯曲的神经几何,揭示了SAE特征表示流形的三种不同方式,并提出了一个无监督流程来揭示神经表征中的几何结构。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈