通过证据校准的查询聚类捕捉LLM能力

Hugging Face Daily Papers 2026/05/16 00:00 论文

摘要

本文提出了一种证据校准的查询聚类算法（ECC），该算法通过后验模型比较和Bradley-Terry建模，将语义嵌入与潜在LLM能力需求对齐，显著提高了LLM评估中能力排名的质量。

查询聚类将查询组织成反映共享潜在能力需求的组，从而实现能力感知的LLM评估。现有的聚类方法主要依赖于语义分类或嵌入，由于表面语义与实际模型性能之间的错位，往往无法捕捉这些潜在能力需求。我们提出了ECC算法，该算法利用有限的后验模型比较来校准先验语义嵌入，从而弥合表面语义与潜在能力需求之间的差距。ECC通过Bradley-Terry模型参数化的能力画像来描述每个聚类，并使用可训练的混合权重来适应具有混合能力需求的查询，共同学习一个灵活、能力感知的聚类结构，支持对LLM能力的查询特定推断。大量的定量和定性评估表明，ECC显著提高了LLM能力排名的质量，分别比人工标注和基于嵌入的基线平均高出17.64和18.02个百分点，并在查询路由等下游任务中证明有效。

查看原文

查看缓存全文

缓存时间: 2026/05/22 02:32

论文页面 - 通过证据校准的查询聚类捕捉LLM能力

来源: https://huggingface.co/papers/2605.17110

摘要

查询聚类算法ECC通过后验模型比较与Bradley-Terry建模，将语义嵌入与潜在能力需求对齐，从而改进LLM能力评估。

查询聚类(https://huggingface.co/papers?q=Query%20clustering)将查询组织成反映共享潜在能力需求(https://huggingface.co/papers?q=latent%20capability%20demands)的群组，实现能力感知的LLM评估。现有聚类方法主要依赖语义分类体系或嵌入，往往因表面语义与实际模型性能之间的错位而无法捕捉此类潜在能力需求。我们提出ECC算法，该算法利用有限的后验模型比较(https://huggingface.co/papers?q=posterior%20model%20comparisons)对先验语义嵌入(https://huggingface.co/papers?q=semantic%20embeddings)进行校准，弥合表面语义与潜在能力需求之间的鸿沟。ECC通过Bradley-Terry模型(https://huggingface.co/papers?q=Bradley-Terry%20model)参数化的能力特征描述每个聚类，并使用可训练的混合权重(https://huggingface.co/papers?q=trainable%20mixture%20weights)来适应具有混合能力需求的查询，共同学习一个灵活的能力感知聚类(https://huggingface.co/papers?q=capability-aware%20clustering)结构，支持对LLM能力进行查询特定的推断。广泛的定量和定性评估表明，ECC显著提升了LLM能力排名(https://huggingface.co/papers?q=LLM%20capability%20ranking)质量，平均分别超过基于人工标注和嵌入的基线方法17.64和18.02个百分点，并在查询路由(https://huggingface.co/papers?q=query%20routing)等下游任务中表现有效。

查看arXiv页面(https://arxiv.org/abs/2605.17110)查看PDF(https://arxiv.org/pdf/2605.17110)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.17110)

引用本论文的模型0

无模型关联本论文

在模型README.md中引用arxiv.org/abs/2605.17110以链接至此页面。

引用本论文的数据集0

无数据集关联本论文

在数据集README.md中引用arxiv.org/abs/2605.17110以链接至此页面。

引用本论文的Space0

无Space关联本论文

在Space README.md中引用arxiv.org/abs/2605.17110以链接至此页面。

包含本论文的收藏集0

无收藏集包含本论文

将本论文添加至收藏集(https://huggingface.co/new-collection)以链接至此页面。

@GitHub_Daily: 做量化研究的朋友，每天面对海量的金融研报和前沿论文，靠人工筛选有价值内容，无疑像大海捞针。最近发现一个叫 QuantMind 的开源项目，专门做量化金融的智能知识提取与检索。能自动抓取论文、新闻和博客等内容，把非结构化的文档转化为可查…

X AI KOLs Timeline

QuantMind 是一个开源的量化金融智能知识提取与检索框架，能够自动抓取论文、新闻等非结构化内容，构建可查询的结构化知识库，并支持自然语言检索。

用 Rust/WASM 构建 LLM 的开源边缘语义缓存——对架构的合理性检查？[D]

Reddit r/MachineLearning

提议使用 Rust/WASM 在 CDN 边缘构建一个轻量级的开源 LLM 语义缓存，以降低延迟和 API 成本，并寻求社区对架构和用例有效性的反馈。

通过证据校准的查询聚类捕捉LLM能力

论文页面 - 通过证据校准的查询聚类捕捉LLM能力

摘要

引用本论文的模型0

引用本论文的数据集0

引用本论文的Space0

包含本论文的收藏集0

相似文章

使用小米MiMo v2.5 Pro处理300亿+ token：从Claude/GPT转向智能浏览器自动化（以及保持稳定的.md工作流）

使用上下文分析器优化LLM调用并减少Token使用

在生产环境中调用LLM API时，最常见的问题是什么？

用 Rust/WASM 构建 LLM 的开源边缘语义缓存——对架构的合理性检查？[D]

提交意见反馈