标签
本文解决了评估不确定性下多模态大语言模型的鲁棒检查点选择挑战,提出了一个多阶段框架,整合了精心策划的真实世界数据、基于LLM的判断以及带有置信度估计的排序协议。
本文揭示,在预训练过程中,语言模型会频繁且突然地在模式匹配与泛化行为之间切换,这种现象被称为“模式跳跃”(mode-hopping),并提出了一个用于研究该现象的小型评估套件。