标签
本帖子描述了如何使用model2vec和UMAP将数千条Obsidian笔记绘制到三维语义嵌入空间中,以揭示隐藏的模式和思维盲点。
本文研究了Word2Vec能否为仅含约130个词汇的人造语言Toki Pona生成有意义的语义嵌入,使用了一个包含140万句子的语料库,并考察了非Toki Pona标记对嵌入质量的影响。
本文提出使用超维计算(特别是全息简化表示)对表格数据行进行嵌入以实现结构化查询,从而获得可解释的相似性阈值和零匹配检测,在行检索任务上优于基线方法。
描述了构建一个网络爬虫,从酒店网站提取内容,使用AI智能体生成结构化的常见问题,并将其存储在向量数据库中,实现知识库的自动创建。
这条推文分享了一篇关于LLMs内部工作原理的详尽解释,涵盖了tokens、embeddings、positional encoding、attention和feed-forward网络,来源于0xkato的一篇博文。
Oracle 的 AI 数据库现在包含了用于基于嵌入的图像搜索的向量存储功能,展示了创新特性,使其成为一个统一的数据存储解决方案。
描述了一种改进智能体记忆搜索的方法:受一篇论文启发,将基于 grep 的精确匹配与向量嵌入相结合;在其记忆层中实现了显著的召回率提升。
该研究揭示了LLM文本嵌入被高频token(如句号、冠词)绑架的问题,提出EmbedFilter方法通过对unembedding矩阵进行SVD分解并减去投影分量来释放真实语义,实现零训练开销的降维和检索效率提升。
Phoenix Grove AI推出了Memory Constellations,这是一种AI记忆嵌入的3D可视化,展示了数据点之间的关系并随时间演变。
一份关于为AI智能体优化知识图谱摄入的详细指南,提出了一个五步流水线(提取、解析、嵌入、去重、路由),以防止图谱损坏并提高检索质量。
本文探究语言模型是否在其嵌入空间中编码了结构化的、人类可解读的意识谱,表明句子形成了从低到高状态的可导航流形,对模型引导与对齐具有启示意义。
本文介绍了一种轻量级方法,利用Chronos-2时间序列基础模型的冻结嵌入,结合一个简单的回归头,进行剩余使用寿命估计,在工业传感器数据上相比基线方法取得了更优的性能。
一个为AI编码代理设计的开源持久记忆层,使用Postgres和pgvector存储和检索项目决策与上下文,旨在减少上下文窗口大小并提高代理的一致性。
本文介绍了一种实用方法,利用微软的Harrier嵌入模型为OpenClaw代理提供本地语义记忆搜索功能,无需外部服务即可高效检索相关文本片段。
本文提出了一个基于LLM的多智能体系统中潜在通信的统一框架,按照通信信息内容、发送者-接收者对位和融合技术对方法进行分类,并回顾了2024至2026年间的十八种代表性方法。
教育性文章,解释FAISS(一个用于十亿级相似性搜索的库),涵盖向量嵌入、最近邻搜索以及IVF和Product Quantization等高效检索技术。
SEA-Embedding 提出了一个完全开放且可复现的东南亚语言文本嵌入流水线,仅使用公开数据训练,在 SEA-BED 基准测试上取得了最先进的结果。
单向量嵌入模型可用于提取稀疏潜在术语,而BM25可将这一词汇转化为强大的检索器。
本文证明,文本到图像的扩散Transformer模型主要依赖文本编码器中的标记合并和词序,而非完整的上下文嵌入,表明图像模型本身能够解码复杂的语言结构。
一位开发者回顾调试RAG系统的经历,发现固定大小分块会破坏句子边界,向量搜索无法处理精确标识符(用BM25解决),以及过时索引导致自信的错误答案。