用于生产级AI管道的Mistral Search Toolkit(4分钟阅读)

TLDR AI 工具

摘要

Mistral AI发布了Search Toolkit,这是一个开源框架,用于构建AI应用的生产级搜索管道,将数据摄入、检索和评估统一到单一界面中。

Mistral以公开预览形式发布了Search Toolkit,这是一个开源框架,在共享界面中统一了数据摄入、检索和评估。
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:42

# Search Toolkit 介绍 | Mistral AI 来源:https://mistral.ai/news/search-toolkit/ 今天,我们正式发布 Search Toolkit 公开预览版。Search Toolkit 是一个可组合的框架,用于为 AI 应用构建生产级搜索管道。我们开发它的原因是,构建搜索基础设施的团队仍然在管道集成上花费了太多工程时间。大多数团队会将数据摄取、检索和评估等不同工具拼凑在一起,每个工具都有自己的接口和对数据的假设。Search Toolkit 将三者整合到一个共享接口的统一框架中,让团队将时间用在提升搜索质量上,而不是维护集成。Search Toolkit 是开源的,可以在你的基础设施任何位置运行:云端、本地、边缘环境。 ## **搜索基础设施本不该如此复杂。** 大多数构建检索系统的团队,花费在组装基础设施上的时间远多于改进搜索质量。数据摄取需要一套工具,检索需要另一套,而评估(如果做的话)则是通过另一个独立的框架和对数据形态的不同假设拼凑上去的。 团队反映,在对自己数据执行哪怕一次查询之前,往往需要数周的集成工作。衡量检索器是否返回了正确结果,通常还需要另一套工具链。对于构建 RAG 工作流或内部知识系统的组织来说,这种开销会在每一层成倍增加。 ## **适用范围。** **企业搜索。** 大多数组织并非面临一个搜索问题,而是一打。内部 Wiki、工单系统、文档仓库、文件存储、代码仓库——每个来源都有不同的结构、不同的元数据,需要不同的处理方式才能良好索引。团队通常需要为每种来源构建单独的数据摄取管道,各自有独立的解析逻辑、分块策略以及对“文档”形态的假设。结果要么是多个无法统一搜索的孤立索引,要么是一个脆弱的自定义层试图统一它们,却成为新的维护负担。Search Toolkit 在单一框架内为不同来源类型提供一致的处理和索引模式,让团队无需每次都重建管道即可添加新来源。 **RAG 与检索质量。** 当 RAG 系统返回不佳结果时,首先需要判断问题是出在检索还是生成。实际上,大多数团队并没有干净的方法来回答这个问题。他们会调整提示词、尝试不同的分块策略、更换模型,却无法知道检索器是否首先给出了正确的上下文。即使那些专注于检索的团队,也往往缺乏工具来针对自己的数据、用自己的相关性判断,严格地比较不同策略。替代方案是为每次实验编写自定义评估脚本。Search Toolkit 内置了独立评估检索器性能的能力,让你可以隔离检索质量和生成质量,并在语料库演变过程中比较不同配置。 **领域特定检索。** 法律文件、医疗记录、代码仓库、财务披露——通用检索器在通用文本上训练,往往难以应对专业术语、文档结构以及与网页搜索不同的相关性标准。需要领域调优检索的团队,通常只能从头构建自定义检索基础设施,这种方案维护成本高且难以评估。 ## **代理世界中的搜索** 处理企业任务的智能代理需要访问企业上下文。它们自主且大量地执行检索决策,因此底层搜索基础设施的质量直接影响每个下游步骤。对于在大型文档语料库中搜索的场景,代理可以在索引上执行语义搜索,从而以低延迟获得精确结果。 代理还需要实时数据。通过连接器(https://docs.mistral.ai/studio-api/knowledge-rag/connectors),它们可以通过 MCP 集成直接从 CRM、代码仓库、生产力工具等源系统拉取数据。当需要在大量内容中进行搜索时,代理可以查询索引语料库;当需要最新状态时,可以从源系统拉取实时数据。Search Toolkit 为你的代理提供了一条高质量索引搜索路径,与实时检索并行使用。 ## **包含什么。** **数据摄取。** 通过可配置的管道从多个来源索引和处理数据。Search Toolkit 处理文档解析、分块和嵌入生成。自定义文档格式和预处理步骤可通过标准适配器接口接入。 **检索。** Search Toolkit 内置了 BM25 稀疏检索、基于密集嵌入的检索,以及结合两者的混合配置。每种配置都可根据你的数据和用例进行调整。 **评估。** 使用内置指标衡量搜索质量:召回率、精确率、MRR 和 NDCG。针对自己的测试集运行评估,并排比较检索器配置,跨版本跟踪质量。 所有模块共享一个通用配置接口。更换索引器、替换检索器、添加评估器,管道的其余部分会自动适配。 Search Toolkit 专为企业级高级用例而设计,并已在金融服务、制造业、公共部门以及媒体与娱乐等行业经受实战考验。CMA CGM 使用 Search Toolkit 结合 Voxtral 帮助记者检测假新闻。该管道处理来自三个不同数据源的音频,并能在端到端 15 秒内返回警报。 **观看演示** ## **开始使用。** 最快尝试 Search Toolkit 的方法是使用我们的**入门应用模板**(https://github.com/mistralai/search-starter-app)。 **前置条件** 安装 Docker(https://docs.docker.com/get-docker/)。在生成的项目中还需要 uv(https://docs.astral.sh/uv/)。 **脚手架一个新项目** ``` uvx copier copy gh:mistralai/search-starter-app my-search-project cd my-search-project ``` **运行它** ``` # 在本地使用 Docker 启动 Vespa make setup-vespa # 索引示例数据 make ingest path=sample_data/hello.txt # 执行查询 make search query="hello world" ``` 该模板包含: - 预配置的 Vespa 索引 - 混合检索(BM25 + 向量) - 示例数据和数据摄取管道 详情请参阅入门应用自述文件(https://github.com/mistralai/search-starter-app)。 ## 下一步做什么 体验入门应用后,可以深入探索: - **调优数据摄取管道**(https://docs.mistral.ai/studio-api/knowledge-rag/search-toolkit/ingestion)—— 配置解析器、分块策略、嵌入模型,以及针对特定文件类型的提取器,以便处理你的数据源。 - **管理 Vespa 模式与相关性**(https://docs.mistral.ai/studio-api/knowledge-rag/search-toolkit/vespa)—— 针对你的用例优化索引和排序配置。 - **构建你理想的检索**(https://docs.mistral.ai/studio-api/knowledge-rag/search-toolkit/retrieval)—— 利用高级功能,如 LLM 查询重写、重排和混合检索。 完整参考请查阅 Search Toolkit 文档(https://docs.mistral.ai/studio-api/knowledge-rag/search-toolkit)。

相似文章

Mistral AI 收购 Emmi AI,打造领先的AI技术栈

Hacker News Top

Mistral AI 收购 Emmi AI,旨在打造工业工程领域领先的AI技术栈,通过整合Mistral平台与Emmi的物理AI模型,加速能源、汽车和航空航天等行业的仿真与工程工作流程。

Mistral Vibe

Product Hunt

Mistral Vibe 是一款专为长时间运行、多步骤工作和编码任务设计的 AI 智能体。

mistralai/Mistral-Medium-3.5-128B

Hugging Face Models Trending

Mistral AI 发布了 Mistral Medium 3.5,这是一款拥有 1280 亿参数的密集多模态模型,具备 256K 上下文窗口、可配置推理能力,并在指令遵循、推理和编程任务方面实现了性能提升。

巴黎Mistral AI Now峰会笔记

Hacker News Top

作者参加了在巴黎举办的Mistral AI Now峰会,注意到Mistral从模型公司向全栈AI提供商的转变,重点包括本地部署、专用小模型以及欧洲主权。