通过证据校准的查询聚类捕捉LLM能力

arXiv cs.AI 2026/05/19 04:00 论文

摘要

本文介绍了ECC算法，该算法通过有限模型比较校准语义嵌入，根据潜在能力需求对查询进行聚类，将LLM能力排名质量相较于基线提高了超过17个百分点。

arXiv:2605.17110v1 Announce Type: new 摘要：查询聚类将查询组织成反映共享潜在能力需求的组，从而实现能力感知的LLM评估。现有聚类方法主要依赖语义分类或嵌入，但由于表面语义与实际模型性能之间的错位，往往无法捕捉这种潜在能力需求。我们提出ECC算法，该算法使用有限的后验模型比较来校准先验语义嵌入，以弥合表面语义与潜在能力需求之间的差距。ECC通过参数化为Bradley-Terry模型的能力特征来描述每个簇，并使用可训练的混合权重来适应具有混合能力需求的查询，共同学习一个灵活、能力感知的聚类结构，支持针对特定查询的LLM能力推断。大量的定量和定性评估表明，ECC显著提高了LLM能力排名质量，分别比人工标注和基于嵌入的基线平均高出17.64和18.02个百分点，并在查询路由等下游任务中被证明有效。

查看原文

查看缓存全文

缓存时间: 2026/05/19 06:39

# 通过证据校准查询聚类捕捉大语言模型能力
来源：https://arxiv.org/abs/2605.17110
查看 PDF (https://arxiv.org/pdf/2605.17110)

> 摘要：查询聚类将查询组织成反映共享潜在能力需求的组，从而实现能力感知的大语言模型（LLM）评估。现有的聚类方法主要依赖语义分类法或嵌入，通常由于表面层语义与实际模型性能之间的错位而无法捕捉这些潜在能力需求。我们提出ECC算法，该算法使用有限的后验模型比较来校准先验语义嵌入，弥合表面层语义与潜在能力需求之间的差距。ECC通过由Bradley-Terry模型参数化的能力简况来刻画每个聚类，并使用可训练的混合权重来适应具有混合能力需求的查询，共同学习一个灵活且具有能力感知的聚类结构，支持针对查询特定的大语言模型能力推断。广泛的定量和定性评估表明，ECC显著提高了大语言模型能力排序质量，分别比人工标注基线和基于嵌入的基线平均高出17.64和18.02个百分点，并在查询路由等下游任务中证明有效。

## 提交历史

来自：吴芳舟 [查看邮箱 (https://arxiv.org/show-email/ec52c671/2605.17110)] **\[v1\]** 2026年5月16日星期六 18:30:37 UTC（1,188 KB）

通过证据校准的查询聚类捕捉LLM能力

相似文章

基于语义级奖励的LLM校准

超越困惑度：面向LLM测试时训练中部署记忆声明的行为评估框架

CRAFT：聚类评分标准以诊断弱项LLM能力并生成有针对性的微调数据

面向有限语义表格数据的大型语言模型：来自工业车辆改装预测的证据

不确定性引导的LLM语义增强用于异质性治疗效果估计

提交意见反馈