embedding

#embedding

DREAM：通过自回归建模实现密集检索嵌入

Hugging Face Daily Papers ↗ · 昨天缓存

DREAM通过利用自回归语言模型的注意力来监督查询-文档相似度，从而训练密集检索嵌入，无需标注数据。在不同模型规模下，它在BEIR和RTEB基准测试上始终优于基线。

0 人收藏 0 人点赞

#embedding

HAKARI-Bench：在统一条件下比较检索架构和效率设置的轻量级基准测试

Hugging Face Daily Papers ↗ · 2天前缓存

HAKARI-Bench是一个轻量级基准测试，用于在多种配置和语言下比较检索方法，支持高效的模型选择和性能分析。它能在保持高相关性的同时，比运行完整基准测试（如MTEB）更快地复现其结果。

0 人收藏 0 人点赞

#embedding

EvoEmbedding：面向长上下文检索与智能体记忆的可演化表示

Hugging Face Daily Papers ↗ · 5天前缓存

EvoEmbedding是一种动态嵌入模型，它维护一个持续更新的潜在记忆，为长上下文检索生成自适应表示，性能优于更大的专业模型，并改进智能体工作流。

0 人收藏 0 人点赞

#embedding

@liquidai: 介绍 LFM2.5-Embedding-350M 和 LFM2.5-ColBERT-350M：两款为超快且精准的多语言检索模型

X AI KOLs Following ↗ · 6天前缓存

Liquid AI 推出 LFM2.5-Embedding-350M 和 LFM2.5-ColBERT-350M，这两款多语言检索模型经过优化，可在11种语言中实现快速准确的搜索，延迟低至1.5毫秒。

0 人收藏 0 人点赞

#embedding

超越分词：面向时间序列问答的直接时间步嵌入与对比对齐

arXiv cs.CL ↗ · 6天前缓存

本文介绍CADE，一个用于时间序列问答的框架，它直接将每个时间步映射到LLM嵌入空间，并使用单向监督对比损失将时间序列表示与冻结的文本锚点对齐，在Time-MQA基准测试上超越了现有基线。

0 人收藏 0 人点赞

#embedding

@freeman1266: 不懂数学，也能看懂大多数 AI 论文——只要理解这条链路： token → embedding → 位置编码 → attention → FFN → 残差流 → next-token prediction LLM 本质上是把 Transf…

X AI KOLs Timeline ↗ · 2026-06-15 缓存

一条中文科普推文，用直观方式解释了LLM（大语言模型）的核心链路：从token、embedding、位置编码、attention、FFN到残差流和next-token prediction，帮助非数学背景读者理解AI论文。

0 人收藏 0 人点赞

#embedding

融合风格测量与嵌入系统以估计日语文本的作者身份似然比

arXiv cs.CL ↗ · 2026-06-15 缓存

本文将对法医作者身份鉴定中的似然比框架应用于日语文本，融合了风格测量特征与基于嵌入的系统，以提高区分度和校准性能。

0 人收藏 0 人点赞

#embedding

JEPA模型背后已有90年历史的想法：典型相关分析

Hacker News Top ↗ · 2026-06-11 缓存

这篇博文解释了JEPA（联合嵌入预测架构）模型与典型相关分析（CCA）之间的联系，典型相关分析是一种源于1936年的统计方法，文章认为CCA是JEPA的概念前身，并指出在嵌入空间中最大化相关性的思想可追溯到Hotelling。

0 人收藏 0 人点赞

#embedding

@hasantoxr：向量数据库不再是云产品。它们正在变成 pip install。一个名为 turbovec 的新开源项目……

X AI KOLs Timeline ↗ · 2026-06-09 缓存

一个名为 turbovec 的开源项目在 GitHub 上获得了 1 万星标。它是一个基于 Rust、带有 Python 绑定的向量索引，使用谷歌研究的 TurboQuant 算法将嵌入压缩到接近理论香农极限，使得完全本地的 RAG（检索增强生成）成为可能——1000 万文档仅需 4 GB RAM，且搜索速度快于 FAISS。

0 人收藏 0 人点赞

#embedding