标签
Headroom 是一个开源工具,可将代码搜索结果和AI对话中的token数量压缩高达92%(如从1.7万压缩到1400),且保持答案质量不变,支持多平台本地免费运行。
作者构建了 Nice Coding Agent,这是一个开源编码工作台,具有可见且可编辑的上下文堆栈,允许用户精确策划大语言模型所看到的内容。它具备本地优先检索、沙盒执行和混合代码搜索功能,旨在让开发者对上下文组装拥有控制和可见性。
Semble 是一个面向 AI 代理的高效代码搜索库,使用模型如 Model2Vec 或 BM25 实现快速索引和检索,比 grep+read 节省约 98% 的 token,支持 MCP 服务器和 CLI 集成。
Semble是一个面向Agent的代码搜索工具,支持自然语言查询,能精准返回语义完整的代码片段,比传统grep+read方式节省98% token消耗,具有智能分块、双路检索和代码感知重排序等特性。
Argyph 是一个开源 MCP 服务器,通过符号图和语义搜索为 AI 编码代理提供结构化的代码库理解,完全本地运行,无云端依赖。
Semble 是一款面向 AI 代理的快速代码搜索库,令牌使用量比 grep+read 减少约 98%,在 CPU 上运行,无外部依赖,并通过 MCP 或 CLI 集成。
本文介绍了 CoREB,这是一个针对代码搜索的、受数据污染限制的多任务基准测试,具备微调重排序能力,可评估文本到代码、代码到文本以及代码到代码的检索效果。
OpenAI 发布了 text-embedding-ada-002,这是一个统一的嵌入模型,将之前的五个模型整合为一个,具有更出色的性能、4 倍更长的上下文窗口(8192 个令牌)、更小的维度(1536)以及比之前的 Davinci 嵌入模型低 99.8% 的定价。
OpenAI 推出了新的嵌入 API 端点,可以将文本和代码转换为数值向量表示,用于语义搜索、聚类和分类任务。这些模型在标准基准测试上取得了最先进的效果,包括代码搜索性能相比之下提升了 20%。
# 通过对比预训练的文本和代码嵌入 源:[https://openai.com/index/text-and-code-embeddings-by-contrastive-pre-training/](https://openai.com/index/text-and-code-embeddings-by-contrastive-pre-training/) ## 摘要 文本嵌入是许多应用中的有用特征,例如语义搜索和计算文本相似性。以往的工作通常训练针对不同用例定制的模型,在数据集选择、训练目标和模型架构方面各不相同。在这
# Sourcebot MCP 服务器 - Sourcebot 来源:[https://docs.sourcebot.dev/docs/features/mcp-server?twclid=24ur7m6qrna8fzx0l5w88rsgef](https://docs.sourcebot.dev/docs/features/mcp-server?twclid=24ur7m6qrna8fzx0l5w88rsgef) Sourcebot MCP 服务器将 AI 工具与你的[Sourcebot 部署](https://docs.sourcebot.dev/docs/deployment/docker-compose) 连接起来。这让 AI Agent 和自动化工具能够在你托管于的所有代码中进行搜索、读取文件、解析引用与定义等操作