text-embedding

#text-embedding

@vintcessun: 原来LLM文本embedding被高频token（句号、冠词）绑架了！Unembedding矩阵隐式定义了一个低秩子空间，主导这些无信息量的表达。这是LLM作为通用embedding效果不佳的根本原因，且污染很隐蔽。EmbedFilter…

X AI KOLs Timeline ↗ · 14小时前缓存

该研究揭示了LLM文本嵌入被高频token（如句号、冠词）绑架的问题，提出EmbedFilter方法通过对unembedding矩阵进行SVD分解并减去投影分量来释放真实语义，实现零训练开销的降维和检索效率提升。

0 人收藏 0 人点赞

#text-embedding

arXiv cs.CL ↗ · 2026-06-03 缓存

SEA-Embedding 提出了一个完全开放且可复现的东南亚语言文本嵌入流水线，仅使用公开数据训练，在 SEA-BED 基准测试上取得了最先进的结果。

0 人收藏 0 人点赞

#text-embedding

arXiv cs.CL ↗ · 2026-05-27 缓存

本文研究了多语言嵌入模型中跨语言检索不对称性的成因。作者提出并验证了枢纽中介假说，发现中心性（而非各向异性）是主导原因，并建议使用CSLS替代余弦相似度。

0 人收藏 0 人点赞

#text-embedding

arXiv cs.CL ↗ · 2026-05-22 缓存

本文评估了四种用于高棉语农业文档检索增强生成（RAG）的文本分块策略，发现基于字符的递归分块（300字符）在检索和相关性方面表现最佳。

0 人收藏 0 人点赞