通过证据校准的查询聚类捕捉LLM能力
摘要
本文提出了一种证据校准的查询聚类算法(ECC),该算法通过后验模型比较和Bradley-Terry建模,将语义嵌入与潜在LLM能力需求对齐,显著提高了LLM评估中能力排名的质量。
查看缓存全文
缓存时间: 2026/05/22 02:32
论文页面 - 通过证据校准的查询聚类捕捉LLM能力
来源: https://huggingface.co/papers/2605.17110
摘要
查询聚类算法ECC通过后验模型比较与Bradley-Terry建模,将语义嵌入与潜在能力需求对齐,从而改进LLM能力评估。
查询聚类(https://huggingface.co/papers?q=Query%20clustering)将查询组织成反映共享潜在能力需求(https://huggingface.co/papers?q=latent%20capability%20demands)的群组,实现能力感知的LLM评估。现有聚类方法主要依赖语义分类体系或嵌入,往往因表面语义与实际模型性能之间的错位而无法捕捉此类潜在能力需求。我们提出ECC算法,该算法利用有限的后验模型比较(https://huggingface.co/papers?q=posterior%20model%20comparisons)对先验语义嵌入(https://huggingface.co/papers?q=semantic%20embeddings)进行校准,弥合表面语义与潜在能力需求之间的鸿沟。ECC通过Bradley-Terry模型(https://huggingface.co/papers?q=Bradley-Terry%20model)参数化的能力特征描述每个聚类,并使用可训练的混合权重(https://huggingface.co/papers?q=trainable%20mixture%20weights)来适应具有混合能力需求的查询,共同学习一个灵活的能力感知聚类(https://huggingface.co/papers?q=capability-aware%20clustering)结构,支持对LLM能力进行查询特定的推断。广泛的定量和定性评估表明,ECC显著提升了LLM能力排名(https://huggingface.co/papers?q=LLM%20capability%20ranking)质量,平均分别超过基于人工标注和嵌入的基线方法17.64和18.02个百分点,并在查询路由(https://huggingface.co/papers?q=query%20routing)等下游任务中表现有效。
查看arXiv页面(https://arxiv.org/abs/2605.17110)查看PDF(https://arxiv.org/pdf/2605.17110)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.17110)
引用本论文的模型0
无模型关联本论文
在模型README.md中引用arxiv.org/abs/2605.17110以链接至此页面。
引用本论文的数据集0
无数据集关联本论文
在数据集README.md中引用arxiv.org/abs/2605.17110以链接至此页面。
引用本论文的Space0
无Space关联本论文
在Space README.md中引用arxiv.org/abs/2605.17110以链接至此页面。
包含本论文的收藏集0
无收藏集包含本论文
将本论文添加至收藏集(https://huggingface.co/new-collection)以链接至此页面。
相似文章
使用小米MiMo v2.5 Pro处理300亿+ token:从Claude/GPT转向智能浏览器自动化(以及保持稳定的.md工作流)
作者分享了大量使用小米MiMo v2.5 Pro大语言模型进行智能浏览器自动化和全栈开发的经验,强调其成本效益(80%+缓存命中率)和处理长上下文任务的能力,同时指出它需要结构化提示。
使用上下文分析器优化LLM调用并减少Token使用
ContextSpy 是一款本地代理工具,用于分析 LLM 应用如何使用其上下文窗口,按类别细分 Token 使用情况,帮助开发者优化并降低成本。
在生产环境中调用LLM API时,最常见的问题是什么?
讨论生产环境中调用LLM API时常见的错误,包括速率限制、格式不匹配、响应格式错误、上下文溢出、模型弃用以及静默失败,并引用Datadog的统计数据及相关论文。
@GitHub_Daily: 做量化研究的朋友,每天面对海量的金融研报和前沿论文,靠人工筛选有价值内容,无疑像大海捞针。 最近发现一个叫 QuantMind 的开源项目,专门做量化金融的智能知识提取与检索。 能自动抓取论文、新闻和博客等内容,把非结构化的文档转化为可查…
QuantMind 是一个开源的量化金融智能知识提取与检索框架,能够自动抓取论文、新闻等非结构化内容,构建可查询的结构化知识库,并支持自然语言检索。
用 Rust/WASM 构建 LLM 的开源边缘语义缓存——对架构的合理性检查?[D]
提议使用 Rust/WASM 在 CDN 边缘构建一个轻量级的开源 LLM 语义缓存,以降低延迟和 API 成本,并寻求社区对架构和用例有效性的反馈。