用于生产级AI管道的Mistral Search Toolkit(4分钟阅读)
摘要
Mistral AI发布了Search Toolkit,这是一个开源框架,用于构建AI应用的生产级搜索管道,将数据摄入、检索和评估统一到单一界面中。
Mistral以公开预览形式发布了Search Toolkit,这是一个开源框架,在共享界面中统一了数据摄入、检索和评估。
查看缓存全文
缓存时间: 2026/06/02 15:42
# Search Toolkit 介绍 | Mistral AI
来源:https://mistral.ai/news/search-toolkit/
今天,我们正式发布 Search Toolkit 公开预览版。Search Toolkit 是一个可组合的框架,用于为 AI 应用构建生产级搜索管道。我们开发它的原因是,构建搜索基础设施的团队仍然在管道集成上花费了太多工程时间。大多数团队会将数据摄取、检索和评估等不同工具拼凑在一起,每个工具都有自己的接口和对数据的假设。Search Toolkit 将三者整合到一个共享接口的统一框架中,让团队将时间用在提升搜索质量上,而不是维护集成。Search Toolkit 是开源的,可以在你的基础设施任何位置运行:云端、本地、边缘环境。
## **搜索基础设施本不该如此复杂。**
大多数构建检索系统的团队,花费在组装基础设施上的时间远多于改进搜索质量。数据摄取需要一套工具,检索需要另一套,而评估(如果做的话)则是通过另一个独立的框架和对数据形态的不同假设拼凑上去的。
团队反映,在对自己数据执行哪怕一次查询之前,往往需要数周的集成工作。衡量检索器是否返回了正确结果,通常还需要另一套工具链。对于构建 RAG 工作流或内部知识系统的组织来说,这种开销会在每一层成倍增加。
## **适用范围。**
**企业搜索。** 大多数组织并非面临一个搜索问题,而是一打。内部 Wiki、工单系统、文档仓库、文件存储、代码仓库——每个来源都有不同的结构、不同的元数据,需要不同的处理方式才能良好索引。团队通常需要为每种来源构建单独的数据摄取管道,各自有独立的解析逻辑、分块策略以及对“文档”形态的假设。结果要么是多个无法统一搜索的孤立索引,要么是一个脆弱的自定义层试图统一它们,却成为新的维护负担。Search Toolkit 在单一框架内为不同来源类型提供一致的处理和索引模式,让团队无需每次都重建管道即可添加新来源。
**RAG 与检索质量。** 当 RAG 系统返回不佳结果时,首先需要判断问题是出在检索还是生成。实际上,大多数团队并没有干净的方法来回答这个问题。他们会调整提示词、尝试不同的分块策略、更换模型,却无法知道检索器是否首先给出了正确的上下文。即使那些专注于检索的团队,也往往缺乏工具来针对自己的数据、用自己的相关性判断,严格地比较不同策略。替代方案是为每次实验编写自定义评估脚本。Search Toolkit 内置了独立评估检索器性能的能力,让你可以隔离检索质量和生成质量,并在语料库演变过程中比较不同配置。
**领域特定检索。** 法律文件、医疗记录、代码仓库、财务披露——通用检索器在通用文本上训练,往往难以应对专业术语、文档结构以及与网页搜索不同的相关性标准。需要领域调优检索的团队,通常只能从头构建自定义检索基础设施,这种方案维护成本高且难以评估。
## **代理世界中的搜索**
处理企业任务的智能代理需要访问企业上下文。它们自主且大量地执行检索决策,因此底层搜索基础设施的质量直接影响每个下游步骤。对于在大型文档语料库中搜索的场景,代理可以在索引上执行语义搜索,从而以低延迟获得精确结果。
代理还需要实时数据。通过连接器(https://docs.mistral.ai/studio-api/knowledge-rag/connectors),它们可以通过 MCP 集成直接从 CRM、代码仓库、生产力工具等源系统拉取数据。当需要在大量内容中进行搜索时,代理可以查询索引语料库;当需要最新状态时,可以从源系统拉取实时数据。Search Toolkit 为你的代理提供了一条高质量索引搜索路径,与实时检索并行使用。
## **包含什么。**
**数据摄取。** 通过可配置的管道从多个来源索引和处理数据。Search Toolkit 处理文档解析、分块和嵌入生成。自定义文档格式和预处理步骤可通过标准适配器接口接入。
**检索。** Search Toolkit 内置了 BM25 稀疏检索、基于密集嵌入的检索,以及结合两者的混合配置。每种配置都可根据你的数据和用例进行调整。
**评估。** 使用内置指标衡量搜索质量:召回率、精确率、MRR 和 NDCG。针对自己的测试集运行评估,并排比较检索器配置,跨版本跟踪质量。
所有模块共享一个通用配置接口。更换索引器、替换检索器、添加评估器,管道的其余部分会自动适配。
Search Toolkit 专为企业级高级用例而设计,并已在金融服务、制造业、公共部门以及媒体与娱乐等行业经受实战考验。CMA CGM 使用 Search Toolkit 结合 Voxtral 帮助记者检测假新闻。该管道处理来自三个不同数据源的音频,并能在端到端 15 秒内返回警报。
**观看演示**
## **开始使用。**
最快尝试 Search Toolkit 的方法是使用我们的**入门应用模板**(https://github.com/mistralai/search-starter-app)。
**前置条件**
安装 Docker(https://docs.docker.com/get-docker/)。在生成的项目中还需要 uv(https://docs.astral.sh/uv/)。
**脚手架一个新项目**
```
uvx copier copy gh:mistralai/search-starter-app my-search-project
cd my-search-project
```
**运行它**
```
# 在本地使用 Docker 启动 Vespa
make setup-vespa
# 索引示例数据
make ingest path=sample_data/hello.txt
# 执行查询
make search query="hello world"
```
该模板包含:
- 预配置的 Vespa 索引
- 混合检索(BM25 + 向量)
- 示例数据和数据摄取管道
详情请参阅入门应用自述文件(https://github.com/mistralai/search-starter-app)。
## 下一步做什么
体验入门应用后,可以深入探索:
- **调优数据摄取管道**(https://docs.mistral.ai/studio-api/knowledge-rag/search-toolkit/ingestion)—— 配置解析器、分块策略、嵌入模型,以及针对特定文件类型的提取器,以便处理你的数据源。
- **管理 Vespa 模式与相关性**(https://docs.mistral.ai/studio-api/knowledge-rag/search-toolkit/vespa)—— 针对你的用例优化索引和排序配置。
- **构建你理想的检索**(https://docs.mistral.ai/studio-api/knowledge-rag/search-toolkit/retrieval)—— 利用高级功能,如 LLM 查询重写、重排和混合检索。
完整参考请查阅 Search Toolkit 文档(https://docs.mistral.ai/studio-api/knowledge-rag/search-toolkit)。
相似文章
Mistral AI 收购 Emmi AI,打造领先的AI技术栈
Mistral AI 收购 Emmi AI,旨在打造工业工程领域领先的AI技术栈,通过整合Mistral平台与Emmi的物理AI模型,加速能源、汽车和航空航天等行业的仿真与工程工作流程。
Mistral Vibe
Mistral Vibe 是一款专为长时间运行、多步骤工作和编码任务设计的 AI 智能体。
mistralai/Mistral-Medium-3.5-128B
Mistral AI 发布了 Mistral Medium 3.5,这是一款拥有 1280 亿参数的密集多模态模型,具备 256K 上下文窗口、可配置推理能力,并在指令遵循、推理和编程任务方面实现了性能提升。
巴黎Mistral AI Now峰会笔记
作者参加了在巴黎举办的Mistral AI Now峰会,注意到Mistral从模型公司向全栈AI提供商的转变,重点包括本地部署、专用小模型以及欧洲主权。
为什么 MistralAI 的增长速度快于 OpenAI/Anthropic(阅读时长:11 分钟)
本文分析了 Mistral AI 收入的快速增长及其战略定位,重点探讨了其如何通过聚焦欧洲数据主权、开放权重模型和计算效率,与美国科技巨头展开竞争。