embedding

标签

Cards List
#embedding

DREAM:通过自回归建模实现密集检索嵌入

Hugging Face Daily Papers · 昨天 缓存

DREAM通过利用自回归语言模型的注意力来监督查询-文档相似度,从而训练密集检索嵌入,无需标注数据。在不同模型规模下,它在BEIR和RTEB基准测试上始终优于基线。

0 人收藏 0 人点赞
#embedding

HAKARI-Bench:在统一条件下比较检索架构和效率设置的轻量级基准测试

Hugging Face Daily Papers · 2天前 缓存

HAKARI-Bench是一个轻量级基准测试,用于在多种配置和语言下比较检索方法,支持高效的模型选择和性能分析。它能在保持高相关性的同时,比运行完整基准测试(如MTEB)更快地复现其结果。

0 人收藏 0 人点赞
#embedding

EvoEmbedding:面向长上下文检索与智能体记忆的可演化表示

Hugging Face Daily Papers · 5天前 缓存

EvoEmbedding是一种动态嵌入模型,它维护一个持续更新的潜在记忆,为长上下文检索生成自适应表示,性能优于更大的专业模型,并改进智能体工作流。

0 人收藏 0 人点赞
#embedding

@liquidai: 介绍 LFM2.5-Embedding-350M 和 LFM2.5-ColBERT-350M:两款为超快且精准的多语言检索模型

X AI KOLs Following · 6天前 缓存

Liquid AI 推出 LFM2.5-Embedding-350M 和 LFM2.5-ColBERT-350M,这两款多语言检索模型经过优化,可在11种语言中实现快速准确的搜索,延迟低至1.5毫秒。

0 人收藏 0 人点赞
#embedding

超越分词:面向时间序列问答的直接时间步嵌入与对比对齐

arXiv cs.CL · 6天前 缓存

本文介绍CADE,一个用于时间序列问答的框架,它直接将每个时间步映射到LLM嵌入空间,并使用单向监督对比损失将时间序列表示与冻结的文本锚点对齐,在Time-MQA基准测试上超越了现有基线。

0 人收藏 0 人点赞
#embedding

@freeman1266: 不懂数学,也能看懂大多数 AI 论文——只要理解这条链路: token → embedding → 位置编码 → attention → FFN → 残差流 → next-token prediction LLM 本质上是把 Transf…

X AI KOLs Timeline · 2026-06-15 缓存

一条中文科普推文,用直观方式解释了LLM(大语言模型)的核心链路:从token、embedding、位置编码、attention、FFN到残差流和next-token prediction,帮助非数学背景读者理解AI论文。

0 人收藏 0 人点赞
#embedding

融合风格测量与嵌入系统以估计日语文本的作者身份似然比

arXiv cs.CL · 2026-06-15 缓存

本文将对法医作者身份鉴定中的似然比框架应用于日语文本,融合了风格测量特征与基于嵌入的系统,以提高区分度和校准性能。

0 人收藏 0 人点赞
#embedding

JEPA模型背后已有90年历史的想法:典型相关分析

Hacker News Top · 2026-06-11 缓存

这篇博文解释了JEPA(联合嵌入预测架构)模型与典型相关分析(CCA)之间的联系,典型相关分析是一种源于1936年的统计方法,文章认为CCA是JEPA的概念前身,并指出在嵌入空间中最大化相关性的思想可追溯到Hotelling。

0 人收藏 0 人点赞
#embedding

@hasantoxr:向量数据库不再是云产品。它们正在变成 pip install。一个名为 turbovec 的新开源项目……

X AI KOLs Timeline · 2026-06-09 缓存

一个名为 turbovec 的开源项目在 GitHub 上获得了 1 万星标。它是一个基于 Rust、带有 Python 绑定的向量索引,使用谷歌研究的 TurboQuant 算法将嵌入压缩到接近理论香农极限,使得完全本地的 RAG(检索增强生成)成为可能——1000 万文档仅需 4 GB RAM,且搜索速度快于 FAISS。

0 人收藏 0 人点赞
#embedding

论词汇性在大语言模型中的持续影响

arXiv cs.CL · 2026-06-03 缓存

本文研究了词汇重叠(而非语义内容)如何影响跨层和跨架构的大语言模型表示,并证明即使在为语义相似性训练的模型中,这种词汇效应依然存在,导致下游任务性能下降。

0 人收藏 0 人点赞
#embedding

SDR:用于放射学报告生成的集合距离奖励

arXiv cs.AI · 2026-06-02 缓存

本文提出用于胸部X光报告生成中强化学习的集合距离奖励,该方法利用生成报告与参考报告之间基于嵌入的集合到集合距离。通过GRPO使用这些奖励进行后训练,在监督微调和精确匹配奖励上表现持续更优,并实现了高效的测试时扩展。

0 人收藏 0 人点赞
#embedding

ScaleMAP:在低维嵌入中保持局部密度和邻域结构

arXiv cs.LG · 2026-06-01 缓存

ScaleMAP是一种新的非线性降维方法,通过基于原始空间局部半径重新缩放嵌入距离来保持局部密度和邻域结构,在保持UMAP级别邻域保留的同时,实现了比DensMAP更好的密度保留。

0 人收藏 0 人点赞
#embedding

@vintcessun: 数值数据集连列名都不一样,怎么让AI跨表检索、对齐?现有嵌入方法遇到异构表直接失灵,LLM也束手无策。 这个问题卡住了跨数据集RAG、算法选择、仿真初始化——没有共同特征名,相似性匹配只能靠猜。 论文提出:对每个表算20+统计描述符(均值…

X AI KOLs Timeline · 2026-05-30 缓存

这篇论文提出了一种通过统计描述符和句子嵌入来对异构数值表格数据集进行跨表检索和对齐的方法,无需共享列名即可实现相似性匹配与可解释的变量级对应。

0 人收藏 0 人点赞
#embedding

基于模型的大规模多语言平行数据质量评估

Hugging Face Daily Papers · 2026-05-29 缓存

本文提出了一种基于模型的方法来评估大规模多语言平行数据,将其分解为平行性评估和无参考质量估计,发现没有任何单一的通用指标适用于所有语言方向。

0 人收藏 0 人点赞
#embedding

Xetrieval: 稠密检索的机械性解释

Hugging Face Daily Papers · 2026-05-28 缓存

Xetrieval 是一个机械性框架,通过用推理信息增强句子嵌入并将其分解为可解释的稀疏特征来解释稠密检索,从而在不进行昂贵自回归生成的情况下提供检索决策的特征级解释。

0 人收藏 0 人点赞
#embedding

Unveil: 多模态文档检索的统一视觉-文本融合与蒸馏

arXiv cs.CL · 2026-05-26 缓存

Unveil提出了一个用于多模态文档检索的统一视觉-文本嵌入框架,通过知识蒸馏将语义理解从视觉-文本模型转移到纯视觉模型,实现鲁棒且高效的检索。

0 人收藏 0 人点赞
#embedding

@garrytan: 我的最新gbrain-evals刚刚发布 - 这是gbrain与其他选项的比较。http://ZeroEntropy.dev 在重新排名方面是SOTA…

X AI KOLs Following · 2026-05-24 缓存

Garry Tan发布了新的gbrain-evals基准测试,显示ZeroEntropy.dev在重新排名和嵌入成本、速度及检索成功率方面达到SOTA,击败了MemPalace和Vector RAG。

0 人收藏 0 人点赞
#embedding

基于嵌入的联邦学习与运行时治理的铁缺乏预测

arXiv cs.LG · 2026-05-22 缓存

本文提出了一种基于嵌入的联邦学习流水线,用于从常规血常规数据预测铁缺乏,并在两个具有非独立同分布(non-IID)分布的临床站点部署。结果表明,个性化聚合(FedMAP)优于标准FedAvg和仅本地训练,在两个站点均实现了更高的ROC-AUC。

0 人收藏 0 人点赞
#embedding

@maximelabonne:事实证明你从来都不需要真正需要µP,你只需要按模型宽度缩放嵌入学习率。我不是nanoGP…

X AI KOLs Following · 2026-05-21 缓存

一条推文指出,按模型宽度缩放嵌入学习率可以替代µP(微参数化)的需求,并提到对隐藏层使用Muon优化器,其余部分使用Adam。

0 人收藏 0 人点赞
#embedding

LiquidAI/LFM2.5-ColBERT-350M

Hugging Face Models Trending · 2026-05-20 缓存

LiquidAI 发布 LFM2.5-ColBERT-350M,这是一种后期交互多语言检索模型,同时还有一个密集双编码器变体,两者均基于 LFM2.5-350M-Base,支持 11 种语言,并设计为 RAG 管道的即插即用替代品。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈