标签
本文测试了LLMs在上下文问答中判断能力优于生成能力的假设,发现在大多数基准上生成准确率超过自我评估,且评估过程对上下文的关注较少。这些发现挑战了自我评估流程中的核心假设。
本文研究了多语言嵌入模型中跨语言检索不对称性的成因。作者提出并验证了枢纽中介假说,发现中心性(而非各向异性)是主导原因,并建议使用CSLS替代余弦相似度。