如何在无潜在特征访问的封闭LLM API上进行OOD检测?
摘要
讨论了在无潜在特征访问的封闭LLM API上进行分布外检测的方法,重点介绍了SelfCheckGPT、令牌级熵、代理嵌入和验证器模型等技术,并指出OOD检测与幻觉检测的合并。
经典的OOD检测假设你可以看到模型内部。特征上的马氏距离和基于logits的能量是典型方法,两者都需要对模型进行内部访问。对于封闭的LLM API,你只能输入文本、输出文本,如果幸运的话,还能获取每个令牌的前K个对数概率。在这种约束下可行的方案包括:基于采样一致性的SelfCheckGPT、利用API暴露的对数概率计算令牌级熵、使用你自己的编码器生成代理嵌入,或者对输出使用独立的验证器模型。困扰我的是,在这种设置下,经典的OOD检测和幻觉检测合并为了同一问题,因为两者都表现为模型生成不可靠的文本。如果你目前在生产环境中使用封闭LLM,你实际的OOD信号是什么?以及你如何决定何时信任输出?
相似文章
基于开权重代理分析器激活的幻觉检测
本文介绍了一种代理分析器框架,通过分析小型开权重模型的内部激活状态而非生成模型本身,来检测大型语言模型中的幻觉。与 ReDeEP 等现有方法相比,该方法在 RAGTruth 等基准测试中表现出更优越的性能,证明了分析方法的优劣比模型大小更为关键。
OpenHalDet:一种针对多样生成场景下幻觉检测的统一基准
OpenHalDet 是一个用于大语言模型幻觉检测的统一基准,它标准化了跨不同生成场景的评估,并支持黑盒、灰盒和白盒检测方法。
共享潜在结构实现LLMs中后门攻击的统一检测与缓解
本文识别了LLMs中不同后门行为之间的共享潜在机制,利用稀疏自编码器检测并因果抑制这些特征,从而在多种模型和攻击类型中实现统一的后门检测与缓解。
长文本幻觉检测的健全性检验
本文介绍了一种受控不变性方法以及两种测试(Force 和 Remove),旨在确定大语言模型(LLM)幻觉检测器是依赖于推理过程还是最终答案的特征。研究提出了 TRACT,这是一种基于词汇特征的轻量级评分器,证明了其在不依赖答案层面线索的情况下仍能保持鲁棒的性能。
马氏距离引导的时变系统混合ES-DRL控制潜在OOD检测
本文提出了一种基于马氏距离的潜在异常检测方法,利用VAE在时变系统中切换强化学习控制器和极值搜索控制器,并在粒子加速器控制中进行了验证。