semantic-embeddings

#semantic-embeddings

基于双重语义嵌入的大语言模型鲁棒文本水印

arXiv cs.CL ↗ · 2026-07-01 缓存

本文提出了双重嵌入水印（DEW），一种面向大语言模型的语义水印方案，通过利用上下文嵌入和词级嵌入来增强对抗改写和翻译的鲁棒性。实验结果表明，与先前方法相比，该方法在改写和翻译后仍能保持较好的检测性能。

0 人收藏 0 人点赞

#semantic-embeddings

arXiv cs.CL ↗ · 2026-06-17 缓存

本文研究了Word2Vec能否为仅含约130个词汇的人造语言Toki Pona生成有意义的语义嵌入，使用了一个包含140万句子的语料库，并考察了非Toki Pona标记对嵌入质量的影响。

0 人收藏 0 人点赞

#semantic-embeddings

Reddit r/MachineLearning ↗ · 2026-06-08

作者分享了他们在agent中从语义嵌入切换到BM25进行工具选择的经验，发现在200个查询-工具对的数据集上，BM25的Top-1准确率达到81%，而嵌入只有64%，因为工具描述简短且关键词驱动，不像文档那样语义丰富。

0 人收藏 0 人点赞

#semantic-embeddings

Hugging Face Daily Papers ↗ · 2026-05-16 缓存

本文提出了一种证据校准的查询聚类算法（ECC），该算法通过后验模型比较和Bradley-Terry建模，将语义嵌入与潜在LLM能力需求对齐，显著提高了LLM评估中能力排名的质量。

0 人收藏 0 人点赞