embeddings

标签

Cards List
#embeddings

@0xclayn: 你的Obsidian知识库有一个隐藏的三维形状,并且它确切知道你的盲点在哪里。灵感来自Blake Crosley a…

X AI KOLs Timeline · 13小时前 缓存

本帖子描述了如何使用model2vec和UMAP将数千条Obsidian笔记绘制到三维语义嵌入空间中,以揭示隐藏的模式和思维盲点。

0 人收藏 0 人点赞
#embeddings

用Toki Pona检验Word2Vec的极限

arXiv cs.CL · 2026-06-17 缓存

本文研究了Word2Vec能否为仅含约130个词汇的人造语言Toki Pona生成有意义的语义嵌入,使用了一个包含140万句子的语料库,并考察了非Toki Pona标记对嵌入质量的影响。

0 人收藏 0 人点赞
#embeddings

超维计算在表格数据嵌入的结构化查询中的应用

arXiv cs.AI · 2026-06-15 缓存

本文提出使用超维计算(特别是全息简化表示)对表格数据行进行嵌入以实现结构化查询,从而获得可解释的相似性阈值和零匹配检测,在行检索任务上优于基线方法。

0 人收藏 0 人点赞
#embeddings

我的客户不想手动添加常见问题,所以我构建了一个系统,自动爬取他们的网站并生成知识库

Reddit r/artificial · 2026-06-14

描述了构建一个网络爬虫,从酒店网站提取内容,使用AI智能体生成结构化的常见问题,并将其存储在向量数据库中,实现知识库的自动创建。

0 人收藏 0 人点赞
#embeddings

@CamilleRoux: 对LLMs内部工作原理的精彩解释:tokens、embeddings、positional encoding、attention、feed-forward…

X AI KOLs Timeline · 2026-06-14 缓存

这条推文分享了一篇关于LLMs内部工作原理的详尽解释,涵盖了tokens、embeddings、positional encoding、attention和feed-forward网络,来源于0xkato的一篇博文。

1 人收藏 1 人点赞
#embeddings

@svpino: Oracle 的 AI 数据库拥有许多非常酷的功能。这些人确实在扭转 Oracle 的局面,让其成为……

X AI KOLs Timeline · 2026-06-12 缓存

Oracle 的 AI 数据库现在包含了用于基于嵌入的图像搜索的向量存储功能,展示了创新特性,使其成为一个统一的数据存储解决方案。

0 人收藏 0 人点赞
#embeddings

分享灵感:Grep 在智能体搜索中为我们带来了颠覆性的改变。

Reddit r/AI_Agents · 2026-06-12

描述了一种改进智能体记忆搜索的方法:受一篇论文启发,将基于 grep 的精确匹配与向量嵌入相结合;在其记忆层中实现了显著的召回率提升。

0 人收藏 0 人点赞
#embeddings

@vintcessun: 原来LLM文本embedding被高频token(句号、冠词)绑架了!Unembedding矩阵隐式定义了一个低秩子空间,主导这些无信息量的表达。这是LLM作为通用embedding效果不佳的根本原因,且污染很隐蔽。EmbedFilter…

X AI KOLs Timeline · 2026-06-12 缓存

该研究揭示了LLM文本嵌入被高频token(如句号、冠词)绑架的问题,提出EmbedFilter方法通过对unembedding矩阵进行SVD分解并减去投影分量来释放真实语义,实现零训练开销的降维和检索效率提升。

0 人收藏 0 人点赞
#embeddings

Phoenix Grove AI中AI记忆的3D思维导图

Reddit r/ArtificialInteligence · 2026-06-10

Phoenix Grove AI推出了Memory Constellations,这是一种AI记忆嵌入的3D可视化,展示了数据点之间的关系并随时间演变。

0 人收藏 0 人点赞
#embeddings

@pauliusztin_: 我花了几个月优化GraphRAG检索。但结果发现我优化错了方向……最大的知识…

X AI KOLs Timeline · 2026-06-10 缓存

一份关于为AI智能体优化知识图谱摄入的详细指南,提出了一个五步流水线(提取、解析、嵌入、去重、路由),以防止图谱损坏并提高检索质量。

0 人收藏 0 人点赞
#embeddings

语言模型表征中假想意识谱状态的可导航流形

arXiv cs.LG · 2026-06-10 缓存

本文探究语言模型是否在其嵌入空间中编码了结构化的、人类可解读的意识谱,表明句子形成了从低到高状态的可导航流形,对模型引导与对齐具有启示意义。

0 人收藏 0 人点赞
#embeddings

基于时间序列基础模型嵌入的剩余使用寿命估计

Hugging Face Daily Papers · 2026-06-10 缓存

本文介绍了一种轻量级方法,利用Chronos-2时间序列基础模型的冻结嵌入,结合一个简单的回归头,进行剩余使用寿命估计,在工业传感器数据上相比基线方法取得了更优的性能。

0 人收藏 0 人点赞
#embeddings

我为AI编码代理构建了一个开源持久记忆层

Reddit r/AI_Agents · 2026-06-09

一个为AI编码代理设计的开源持久记忆层,使用Postgres和pgvector存储和检索项目决策与上下文,旨在减少上下文窗口大小并提高代理的一致性。

0 人收藏 0 人点赞
#embeddings

使用Harrier嵌入向量的OpenClaw代理本地语义记忆搜索

Reddit r/openclaw · 2026-06-06

本文介绍了一种实用方法,利用微软的Harrier嵌入模型为OpenClaw代理提供本地语义记忆搜索功能,无需外部服务即可高效检索相关文本片段。

0 人收藏 0 人点赞
#embeddings

超越标记:基于LLM的多智能体系统中潜在通信的统一框架

arXiv cs.CL · 2026-06-05 缓存

本文提出了一个基于LLM的多智能体系统中潜在通信的统一框架,按照通信信息内容、发送者-接收者对位和融合技术对方法进行分类,并回顾了2024至2026年间的十八种代表性方法。

0 人收藏 0 人点赞
#embeddings

FAISS内部:十亿级相似性搜索

Hacker News Top · 2026-06-04 缓存

教育性文章,解释FAISS(一个用于十亿级相似性搜索的库),涵盖向量嵌入、最近邻搜索以及IVF和Product Quantization等高效检索技术。

0 人收藏 0 人点赞
#embeddings

SEA-Embedding:面向东南亚的开放可复现文本嵌入

arXiv cs.CL · 2026-06-03 缓存

SEA-Embedding 提出了一个完全开放且可复现的东南亚语言文本嵌入流水线,仅使用公开数据训练,在 SEA-BED 基准测试上取得了最先进的结果。

0 人收藏 0 人点赞
#embeddings

@mixedbreadai:到如今,所有人都知道单向量嵌入模型对现代工作流极为有限。但它们包含更多…

X AI KOLs Following · 2026-06-02 缓存

单向量嵌入模型可用于提取稀疏潜在术语,而BM25可将这一词汇转化为强大的检索器。

0 人收藏 0 人点赞
#embeddings

文本到图像模型对文本编码器的依赖比你想象的要少

Hugging Face Daily Papers · 2026-06-02 缓存

本文证明,文本到图像的扩散Transformer模型主要依赖文本编码器中的标记合并和词序,而非完整的上下文嵌入,表明图像模型本身能够解码复杂的语言结构。

0 人收藏 0 人点赞
#embeddings

花了太长时间调试RAG,后来才意识到分块一直是问题所在

Reddit r/ArtificialInteligence · 2026-06-01

一位开发者回顾调试RAG系统的经历,发现固定大小分块会破坏句子边界,向量搜索无法处理精确标识符(用BM25解决),以及过时索引导致自信的错误答案。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈