标签
本文介绍了CAGE,一种基于反事实图的多智能体LLM系统校准方法,在TriviaQA和MMLU-Pro等基准测试上进行了评估,涵盖了多种通信拓扑结构。该方法优于现有的事后校准和LLM引导校准方法。
本文提出检索增强的语言校准(RALC),一种事后流水线方法,通过将语言置信度建模为分布并使用检索增强重写来校准大语言模型中的置信度信号。它引入了忠实度散度指标,并在多个基准测试中展示了显著改进。