通过证据校准的查询聚类捕捉LLM能力

Hugging Face Daily Papers 2026/05/16 00:00 论文

摘要

本文提出了一种证据校准的查询聚类算法（ECC），该算法通过后验模型比较和Bradley-Terry建模，将语义嵌入与潜在LLM能力需求对齐，显著提高了LLM评估中能力排名的质量。

查询聚类将查询组织成反映共享潜在能力需求的组，从而实现能力感知的LLM评估。现有的聚类方法主要依赖于语义分类或嵌入，由于表面语义与实际模型性能之间的错位，往往无法捕捉这些潜在能力需求。我们提出了ECC算法，该算法利用有限的后验模型比较来校准先验语义嵌入，从而弥合表面语义与潜在能力需求之间的差距。ECC通过Bradley-Terry模型参数化的能力画像来描述每个聚类，并使用可训练的混合权重来适应具有混合能力需求的查询，共同学习一个灵活、能力感知的聚类结构，支持对LLM能力的查询特定推断。大量的定量和定性评估表明，ECC显著提高了LLM能力排名的质量，分别比人工标注和基于嵌入的基线平均高出17.64和18.02个百分点，并在查询路由等下游任务中证明有效。

查看原文

查看缓存全文

缓存时间: 2026/05/22 02:32

论文页面 - 通过证据校准的查询聚类捕捉LLM能力

来源: https://huggingface.co/papers/2605.17110

摘要

查询聚类算法ECC通过后验模型比较与Bradley-Terry建模，将语义嵌入与潜在能力需求对齐，从而改进LLM能力评估。

查询聚类(https://huggingface.co/papers?q=Query%20clustering)将查询组织成反映共享潜在能力需求(https://huggingface.co/papers?q=latent%20capability%20demands)的群组，实现能力感知的LLM评估。现有聚类方法主要依赖语义分类体系或嵌入，往往因表面语义与实际模型性能之间的错位而无法捕捉此类潜在能力需求。我们提出ECC算法，该算法利用有限的后验模型比较(https://huggingface.co/papers?q=posterior%20model%20comparisons)对先验语义嵌入(https://huggingface.co/papers?q=semantic%20embeddings)进行校准，弥合表面语义与潜在能力需求之间的鸿沟。ECC通过Bradley-Terry模型(https://huggingface.co/papers?q=Bradley-Terry%20model)参数化的能力特征描述每个聚类，并使用可训练的混合权重(https://huggingface.co/papers?q=trainable%20mixture%20weights)来适应具有混合能力需求的查询，共同学习一个灵活的能力感知聚类(https://huggingface.co/papers?q=capability-aware%20clustering)结构，支持对LLM能力进行查询特定的推断。广泛的定量和定性评估表明，ECC显著提升了LLM能力排名(https://huggingface.co/papers?q=LLM%20capability%20ranking)质量，平均分别超过基于人工标注和嵌入的基线方法17.64和18.02个百分点，并在查询路由(https://huggingface.co/papers?q=query%20routing)等下游任务中表现有效。

查看arXiv页面(https://arxiv.org/abs/2605.17110)查看PDF(https://arxiv.org/pdf/2605.17110)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.17110)

引用本论文的模型0

无模型关联本论文

在模型README.md中引用arxiv.org/abs/2605.17110以链接至此页面。

引用本论文的数据集0

无数据集关联本论文

在数据集README.md中引用arxiv.org/abs/2605.17110以链接至此页面。

引用本论文的Space0

无Space关联本论文

在Space README.md中引用arxiv.org/abs/2605.17110以链接至此页面。

包含本论文的收藏集0

无收藏集包含本论文

将本论文添加至收藏集(https://huggingface.co/new-collection)以链接至此页面。

通过证据校准的查询聚类捕捉LLM能力

论文页面 - 通过证据校准的查询聚类捕捉LLM能力

摘要

引用本论文的模型0

引用本论文的数据集0

引用本论文的Space0

包含本论文的收藏集0

相似文章

自行量化 Kimi K3 (2.8T A50B) 至 GGUF 格式 - Q3_K_S 可行，磁盘占用 1.1 TB

Theo Conjecture 解决了35年前的数学问题，发现了一个无人预见的项

我预训练了一个700M参数的模型，在180亿个token上优化了Python和Wikitext | TheOneWhoWill/Shibai-700M-Base · Hugging Face

有人在 OpenRouter 上试过 Qwen3.7 flash 吗？相比我们现有的 Qwen 3.6 27B 怎么样？

Linux 中的人工智能

提交意见反馈