用于生产级AI管道的Mistral Search Toolkit（4分钟阅读）

TLDR AI 2026/06/02 00:00 工具

search-toolkit mistral-ai open-source rag enterprise-search retrieval production-pipelines

摘要

Mistral AI发布了Search Toolkit，这是一个开源框架，用于构建AI应用的生产级搜索管道，将数据摄入、检索和评估统一到单一界面中。

Mistral以公开预览形式发布了Search Toolkit，这是一个开源框架，在共享界面中统一了数据摄入、检索和评估。

查看原文

查看缓存全文

缓存时间: 2026/06/02 15:42

# Search Toolkit 介绍 | Mistral AI 来源：https://mistral.ai/news/search-toolkit/ 今天，我们正式发布 Search Toolkit 公开预览版。Search Toolkit 是一个可组合的框架，用于为 AI 应用构建生产级搜索管道。我们开发它的原因是，构建搜索基础设施的团队仍然在管道集成上花费了太多工程时间。大多数团队会将数据摄取、检索和评估等不同工具拼凑在一起，每个工具都有自己的接口和对数据的假设。Search Toolkit 将三者整合到一个共享接口的统一框架中，让团队将时间用在提升搜索质量上，而不是维护集成。Search Toolkit 是开源的，可以在你的基础设施任何位置运行：云端、本地、边缘环境。 ## **搜索基础设施本不该如此复杂。** 大多数构建检索系统的团队，花费在组装基础设施上的时间远多于改进搜索质量。数据摄取需要一套工具，检索需要另一套，而评估（如果做的话）则是通过另一个独立的框架和对数据形态的不同假设拼凑上去的。团队反映，在对自己数据执行哪怕一次查询之前，往往需要数周的集成工作。衡量检索器是否返回了正确结果，通常还需要另一套工具链。对于构建 RAG 工作流或内部知识系统的组织来说，这种开销会在每一层成倍增加。 ## **适用范围。** **企业搜索。** 大多数组织并非面临一个搜索问题，而是一打。内部 Wiki、工单系统、文档仓库、文件存储、代码仓库——每个来源都有不同的结构、不同的元数据，需要不同的处理方式才能良好索引。团队通常需要为每种来源构建单独的数据摄取管道，各自有独立的解析逻辑、分块策略以及对“文档”形态的假设。结果要么是多个无法统一搜索的孤立索引，要么是一个脆弱的自定义层试图统一它们，却成为新的维护负担。Search Toolkit 在单一框架内为不同来源类型提供一致的处理和索引模式，让团队无需每次都重建管道即可添加新来源。 **RAG 与检索质量。** 当 RAG 系统返回不佳结果时，首先需要判断问题是出在检索还是生成。实际上，大多数团队并没有干净的方法来回答这个问题。他们会调整提示词、尝试不同的分块策略、更换模型，却无法知道检索器是否首先给出了正确的上下文。即使那些专注于检索的团队，也往往缺乏工具来针对自己的数据、用自己的相关性判断，严格地比较不同策略。替代方案是为每次实验编写自定义评估脚本。Search Toolkit 内置了独立评估检索器性能的能力，让你可以隔离检索质量和生成质量，并在语料库演变过程中比较不同配置。 **领域特定检索。** 法律文件、医疗记录、代码仓库、财务披露——通用检索器在通用文本上训练，往往难以应对专业术语、文档结构以及与网页搜索不同的相关性标准。需要领域调优检索的团队，通常只能从头构建自定义检索基础设施，这种方案维护成本高且难以评估。 ## **代理世界中的搜索** 处理企业任务的智能代理需要访问企业上下文。它们自主且大量地执行检索决策，因此底层搜索基础设施的质量直接影响每个下游步骤。对于在大型文档语料库中搜索的场景，代理可以在索引上执行语义搜索，从而以低延迟获得精确结果。代理还需要实时数据。通过连接器（https://docs.mistral.ai/studio-api/knowledge-rag/connectors），它们可以通过 MCP 集成直接从 CRM、代码仓库、生产力工具等源系统拉取数据。当需要在大量内容中进行搜索时，代理可以查询索引语料库；当需要最新状态时，可以从源系统拉取实时数据。Search Toolkit 为你的代理提供了一条高质量索引搜索路径，与实时检索并行使用。 ## **包含什么。** **数据摄取。** 通过可配置的管道从多个来源索引和处理数据。Search Toolkit 处理文档解析、分块和嵌入生成。自定义文档格式和预处理步骤可通过标准适配器接口接入。 **检索。** Search Toolkit 内置了 BM25 稀疏检索、基于密集嵌入的检索，以及结合两者的混合配置。每种配置都可根据你的数据和用例进行调整。 **评估。** 使用内置指标衡量搜索质量：召回率、精确率、MRR 和 NDCG。针对自己的测试集运行评估，并排比较检索器配置，跨版本跟踪质量。所有模块共享一个通用配置接口。更换索引器、替换检索器、添加评估器，管道的其余部分会自动适配。 Search Toolkit 专为企业级高级用例而设计，并已在金融服务、制造业、公共部门以及媒体与娱乐等行业经受实战考验。CMA CGM 使用 Search Toolkit 结合 Voxtral 帮助记者检测假新闻。该管道处理来自三个不同数据源的音频，并能在端到端 15 秒内返回警报。 **观看演示** ## **开始使用。** 最快尝试 Search Toolkit 的方法是使用我们的**入门应用模板**（https://github.com/mistralai/search-starter-app）。 **前置条件** 安装 Docker（https://docs.docker.com/get-docker/）。在生成的项目中还需要 uv（https://docs.astral.sh/uv/）。 **脚手架一个新项目** ``` uvx copier copy gh:mistralai/search-starter-app my-search-project cd my-search-project ``` **运行它** ``` # 在本地使用 Docker 启动 Vespa make setup-vespa # 索引示例数据 make ingest path=sample_data/hello.txt # 执行查询 make search query="hello world" ``` 该模板包含： - 预配置的 Vespa 索引 - 混合检索（BM25 + 向量） - 示例数据和数据摄取管道详情请参阅入门应用自述文件（https://github.com/mistralai/search-starter-app）。 ## 下一步做什么体验入门应用后，可以深入探索： - **调优数据摄取管道**（https://docs.mistral.ai/studio-api/knowledge-rag/search-toolkit/ingestion）—— 配置解析器、分块策略、嵌入模型，以及针对特定文件类型的提取器，以便处理你的数据源。 - **管理 Vespa 模式与相关性**（https://docs.mistral.ai/studio-api/knowledge-rag/search-toolkit/vespa）—— 针对你的用例优化索引和排序配置。 - **构建你理想的检索**（https://docs.mistral.ai/studio-api/knowledge-rag/search-toolkit/retrieval）—— 利用高级功能，如 LLM 查询重写、重排和混合检索。完整参考请查阅 Search Toolkit 文档（https://docs.mistral.ai/studio-api/knowledge-rag/search-toolkit）。

用于生产级AI管道的Mistral Search Toolkit（4分钟阅读）

相似文章

Mistral AI 收购 Emmi AI，打造领先的AI技术栈

Mistral Vibe

mistralai/Mistral-Medium-3.5-128B

巴黎Mistral AI Now峰会笔记

为什么 MistralAI 的增长速度快于 OpenAI/Anthropic（阅读时长：11 分钟）

提交意见反馈