如何在无潜在特征访问的封闭LLM API上进行OOD检测?

Reddit r/artificial 新闻

摘要

讨论了在无潜在特征访问的封闭LLM API上进行分布外检测的方法,重点介绍了SelfCheckGPT、令牌级熵、代理嵌入和验证器模型等技术,并指出OOD检测与幻觉检测的合并。

经典的OOD检测假设你可以看到模型内部。特征上的马氏距离和基于logits的能量是典型方法,两者都需要对模型进行内部访问。对于封闭的LLM API,你只能输入文本、输出文本,如果幸运的话,还能获取每个令牌的前K个对数概率。在这种约束下可行的方案包括:基于采样一致性的SelfCheckGPT、利用API暴露的对数概率计算令牌级熵、使用你自己的编码器生成代理嵌入,或者对输出使用独立的验证器模型。困扰我的是,在这种设置下,经典的OOD检测和幻觉检测合并为了同一问题,因为两者都表现为模型生成不可靠的文本。如果你目前在生产环境中使用封闭LLM,你实际的OOD信号是什么?以及你如何决定何时信任输出?
查看原文

相似文章

基于开权重代理分析器激活的幻觉检测

arXiv cs.CL

本文介绍了一种代理分析器框架,通过分析小型开权重模型的内部激活状态而非生成模型本身,来检测大型语言模型中的幻觉。与 ReDeEP 等现有方法相比,该方法在 RAGTruth 等基准测试中表现出更优越的性能,证明了分析方法的优劣比模型大小更为关键。

长文本幻觉检测的健全性检验

arXiv cs.CL

本文介绍了一种受控不变性方法以及两种测试(Force 和 Remove),旨在确定大语言模型(LLM)幻觉检测器是依赖于推理过程还是最终答案的特征。研究提出了 TRACT,这是一种基于词汇特征的轻量级评分器,证明了其在不依赖答案层面线索的情况下仍能保持鲁棒的性能。