标签
作者分享了他们在agent中从语义嵌入切换到BM25进行工具选择的经验,发现在200个查询-工具对的数据集上,BM25的Top-1准确率达到81%,而嵌入只有64%,因为工具描述简短且关键词驱动,不像文档那样语义丰富。
本文提出了一种证据校准的查询聚类算法(ECC),该算法通过后验模型比较和Bradley-Terry建模,将语义嵌入与潜在LLM能力需求对齐,显著提高了LLM评估中能力排名的质量。