标签
SAGE 提出了一种群体级别的不确定性目标,该目标在采样响应上构建基于答案条件的不确定性几何结构,以改进大语言模型中的口头不确定性对齐,并引入了 GUPO 进行训练。跨推理任务的实验表明,不确定性排序得到改善,过度自信有所减少。
论文提出了一种基于委托的聚合器,名为传播代理投票(PPV),它利用字母熵和推理几何改进多样本LLM推理中的多数投票,在MMLU-Pro上取得了收益,无需外部标签或辅助训练。
研究者提出 SHADE,一种混合估计器,在仅能获取少量黑盒样本时,融合 Good-Turing 覆盖率与图谱线索,量化语义不确定性并检测大模型幻觉。