hidden-state

标签

Cards List
#hidden-state

不要让LLM说话,直接探测它(8分钟阅读)

TLDR AI · 21小时前 缓存

本文介绍了一种技术,该技术从LLM的最后一个提示标记处提取隐藏状态,无需文本生成即可进行分类,使用一个小型MLP读取模型的内部决策,从而实现快速且廉价的零样本分类器。

0 人收藏 0 人点赞
#hidden-state

AERIC:针对隐式有害对话的预期性隐藏状态监测

arXiv cs.CL · 2026-05-26 缓存

介绍AERIC,一种轻量级隐藏状态监测方法,用于检测LLM对话中的隐式有害内容,无需额外的前向传递,在强基线上实现了AUROC提升,且延迟开销极小。

0 人收藏 0 人点赞
#hidden-state

扩散应进入语言模型的何处?几何引导的隐藏状态替换

arXiv cs.CL · 2026-05-15 缓存

本文提出DiHAL,一种扩散-变换器混合模型,利用基于几何的代理选择预训练语言模型中的某个层,通过扩散桥进行隐藏状态替换,通过避免直接的词元恢复来改进连续扩散语言建模。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈