通过证据校准的查询聚类捕捉LLM能力
摘要
本文介绍了ECC算法,该算法通过有限模型比较校准语义嵌入,根据潜在能力需求对查询进行聚类,将LLM能力排名质量相较于基线提高了超过17个百分点。
arXiv:2605.17110v1 Announce Type: new
摘要:查询聚类将查询组织成反映共享潜在能力需求的组,从而实现能力感知的LLM评估。现有聚类方法主要依赖语义分类或嵌入,但由于表面语义与实际模型性能之间的错位,往往无法捕捉这种潜在能力需求。我们提出ECC算法,该算法使用有限的后验模型比较来校准先验语义嵌入,以弥合表面语义与潜在能力需求之间的差距。ECC通过参数化为Bradley-Terry模型的能力特征来描述每个簇,并使用可训练的混合权重来适应具有混合能力需求的查询,共同学习一个灵活、能力感知的聚类结构,支持针对特定查询的LLM能力推断。大量的定量和定性评估表明,ECC显著提高了LLM能力排名质量,分别比人工标注和基于嵌入的基线平均高出17.64和18.02个百分点,并在查询路由等下游任务中被证明有效。
查看缓存全文
缓存时间: 2026/05/19 06:39
# 通过证据校准查询聚类捕捉大语言模型能力 来源:https://arxiv.org/abs/2605.17110 查看 PDF (https://arxiv.org/pdf/2605.17110) > 摘要:查询聚类将查询组织成反映共享潜在能力需求的组,从而实现能力感知的大语言模型(LLM)评估。现有的聚类方法主要依赖语义分类法或嵌入,通常由于表面层语义与实际模型性能之间的错位而无法捕捉这些潜在能力需求。我们提出ECC算法,该算法使用有限的后验模型比较来校准先验语义嵌入,弥合表面层语义与潜在能力需求之间的差距。ECC通过由Bradley-Terry模型参数化的能力简况来刻画每个聚类,并使用可训练的混合权重来适应具有混合能力需求的查询,共同学习一个灵活且具有能力感知的聚类结构,支持针对查询特定的大语言模型能力推断。广泛的定量和定性评估表明,ECC显著提高了大语言模型能力排序质量,分别比人工标注基线和基于嵌入的基线平均高出17.64和18.02个百分点,并在查询路由等下游任务中证明有效。 ## 提交历史 来自:吴芳舟 [查看邮箱 (https://arxiv.org/show-email/ec52c671/2605.17110)] **\[v1\]** 2026年5月16日星期六 18:30:37 UTC(1,188 KB)
相似文章
基于语义级奖励的LLM校准
提出了CSR,一种直接在语义空间中使用新颖的语义校准奖励来校准LLM的框架,在多个数据集上将ECE降低了高达40%,并将AUROC相较于口头化置信度基线提升了高达31%。
检索增强的语言校准
本文提出检索增强的语言校准(RALC),一种事后流水线方法,通过将语言置信度建模为分布并使用检索增强重写来校准大语言模型中的置信度信号。它引入了忠实度散度指标,并在多个基准测试中展示了显著改进。
面向专业人类与大语言模型协作的能力条件化支架
介绍了能力条件化支架,一种用于大语言模型协作的框架,根据用户专业领域调整干预措施以防止专业领域漂移,并在MMLU子集上进行了试点评估。
基于智能体评估与稳定性感知排序的多模态大语言模型鲁棒检查点选择
本文解决了评估不确定性下多模态大语言模型的鲁棒检查点选择挑战,提出了一个多阶段框架,整合了精心策划的真实世界数据、基于LLM的判断以及带有置信度估计的排序协议。
跨异构任务的自演化LLM记忆抽取
研究者推出BEHEMOTH基准与CluE聚类提示优化,使LLM能从多样化任务中抽取并保留异构记忆,相比既往自演化框架提升9%。