标签
该研究揭示了LLM文本嵌入被高频token(如句号、冠词)绑架的问题,提出EmbedFilter方法通过对unembedding矩阵进行SVD分解并减去投影分量来释放真实语义,实现零训练开销的降维和检索效率提升。
SEA-Embedding 提出了一个完全开放且可复现的东南亚语言文本嵌入流水线,仅使用公开数据训练,在 SEA-BED 基准测试上取得了最先进的结果。
本文研究了多语言嵌入模型中跨语言检索不对称性的成因。作者提出并验证了枢纽中介假说,发现中心性(而非各向异性)是主导原因,并建议使用CSLS替代余弦相似度。
本文评估了四种用于高棉语农业文档检索增强生成(RAG)的文本分块策略,发现基于字符的递归分块(300字符)在检索和相关性方面表现最佳。