标签
本文探讨了仅根据最终答案来评估AI智能体的陷阱,强调了检查中间步骤、工具调用和推理过程以发现看似自信但实际错误的输出的重要性。文章建议使用自动评分和轨迹回放来测量并改进智能体的行为。
这项研究提出了探针目标微调(LoRA)方法,使LLM能够口头表达其内部置信度,实现了对置信度输出的因果控制,并证明模型通常知道自己是正确还是错误,但未能表达出来。
本文分析了11个主流大型语言模型的置信度校准情况,发现它们普遍过于自信,尤其在困难任务上,而在简单任务上则信心不足。文章引入了LifeEval,这是一个用于评估不同难度级别下校准效果的测试。
MARGIN 是一种用于多智能体基础模型系统的运行时置信度校准方法,它在线学习每个智能体的校准因子,将硬基准上的成对分辨率从低于随机水平提升至70-89%,且无需保留数据或重新训练。
本文介绍了Expectation Consistency Loss (ECL),这是一种基于理论的损失函数,用于在协变量偏移下校准分类器置信度,该函数源自一个称为Expectation Consistency Condition的必要充分条件。
经过八个月的真实部署,PayWithLocus发现其自主AI系统最难的问题不是能力,而是自信:AI在新情况下自信地执行错误决策,突显了当前架构未能解决的元认知差距。
本文介绍了CASPO框架,该框架通过迭代直接偏好优化(DPO),将token级别的置信度与大型推理模型中的逐步逻辑正确性进行对齐。文章还提出了置信度感知思考(CaT),用于在推理过程中动态剪枝不确定的推理分支,以提高可靠性和效率。
本研究提出了一份涵盖33个模型的图谱,利用MMLU基准分析了前沿大语言模型中的领域级元认知监控,揭示了聚合指标所掩盖的不同知识领域中置信度校准的显著差异。
本文介绍了一种利用大语言模型生成首Token的置信度来检测幻觉的方法,该方法仅需执行单次解码步骤。