text-embedding

标签

Cards List
#text-embedding

@vintcessun: 原来LLM文本embedding被高频token(句号、冠词)绑架了!Unembedding矩阵隐式定义了一个低秩子空间,主导这些无信息量的表达。这是LLM作为通用embedding效果不佳的根本原因,且污染很隐蔽。EmbedFilter…

X AI KOLs Timeline · 14小时前 缓存

该研究揭示了LLM文本嵌入被高频token(如句号、冠词)绑架的问题,提出EmbedFilter方法通过对unembedding矩阵进行SVD分解并减去投影分量来释放真实语义,实现零训练开销的降维和检索效率提升。

0 人收藏 0 人点赞
#text-embedding

SEA-Embedding:面向东南亚的开放可复现文本嵌入

arXiv cs.CL · 2026-06-03 缓存

SEA-Embedding 提出了一个完全开放且可复现的东南亚语言文本嵌入流水线,仅使用公开数据训练,在 SEA-BED 基准测试上取得了最先进的结果。

0 人收藏 0 人点赞
#text-embedding

中心性而非各向异性驱动多语言嵌入模型中的跨语言检索不对称性

arXiv cs.CL · 2026-05-27 缓存

本文研究了多语言嵌入模型中跨语言检索不对称性的成因。作者提出并验证了枢纽中介假说,发现中心性(而非各向异性)是主导原因,并建议使用CSLS替代余弦相似度。

0 人收藏 0 人点赞
#text-embedding

低资源语言农业文档中有效文本嵌入的分块策略评估

arXiv cs.CL · 2026-05-22 缓存

本文评估了四种用于高棉语农业文档检索增强生成(RAG)的文本分块策略,发现基于字符的递归分块(300字符)在检索和相关性方面表现最佳。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈