@tom_doerr: 使用LLMs对私有数据进行深度研究的自动化 https://github.com/zilliztech/deep-searcher…

X AI KOLs Timeline 2026/06/13 13:42 工具

open-source private-data-search vector-database llm-integration enterprise-knowledge intelligent-qa zilliz

摘要

DeepSearcher 是一个开源工具，结合了LLMs和向量数据库，能够对私有数据进行深度研究，为企业知识管理和智能问答系统提供准确的答案和报告。

使用LLMs对私有数据进行深度研究的自动化 https://t.co/mP4VSVAK8U https://t.co/mmMQETzHJS

查看原文

查看缓存全文

缓存时间: 2026/06/14 07:39

config.set_provider_config(“llm”, “(LLM名称)”, “(参数字典)”)

“LLM名称“可以是以下之一：[“DeepSeek”, “OpenAI”, “XAI”, “SiliconFlow”, “Aliyun”, “PPIO”, “TogetherAI”, “Gemini”, “Ollama”, “Novita”, “Jiekou.AI”]

“参数字典“是一个包含 LLM 类所需必要参数的字典。

请确保已将你的 OpenAI API 密钥设置为环境变量 OPENAI_API_KEY。

config.set_provider_config(“llm”, “OpenAI”, {“model”: “o1-mini”})

关于 OpenAI 模型的更多详情：https://platform.openai.com/docs/models

请确保已将你的阿里云百炼 API 密钥设置为环境变量 DASHSCOPE_API_KEY。

config.set_provider_config(“llm”, “Aliyun”, {“model”: “qwen-plus-latest”})

关于阿里云百炼模型的更多详情：https://bailian.console.aliyun.com

config.set_provider_config(“llm”, “OpenAI”, {“model”: “qwen/qwen3-235b-a22b:free”, “base_url”: “https://openrouter.ai/api/v1”, “api_key”: “OPENROUTER_API_KEY”})

关于 OpenRouter 模型的更多详情：https://openrouter.ai/qwen/qwen3-235b-a22b:free

请确保已将你的 DeepSeek API 密钥设置为环境变量 DEEPSEEK_API_KEY。

config.set_provider_config(“llm”, “DeepSeek”, {“model”: “deepseek-reasoner”})

关于 DeepSeek 的更多详情：https://api-docs.deepseek.com/

请确保已将你的 SiliconFlow API 密钥设置为环境变量 SILICONFLOW_API_KEY。

config.set_provider_config(“llm”, “SiliconFlow”, {“model”: “deepseek-ai/DeepSeek-R1”})

关于 SiliconFlow 的更多详情：https://docs.siliconflow.cn/quickstart

请确保已将你的 Together API 密钥设置为环境变量 TOGETHER_API_KEY。

config.set_provider_config(“llm”, “TogetherAI”, {“model”: “deepseek-ai/DeepSeek-R1”})

config.set_provider_config(“llm”, “TogetherAI”, {“model”: “meta-llama/Llama-4-Scout-17B-16E-Instruct”})

运行前需要安装 together，执行：pip install together。关于 TogetherAI 的更多详情：https://www.together.ai/

请确保已将你的 XAI API 密钥设置为环境变量 XAI_API_KEY。

config.set_provider_config(“llm”, “XAI”, {“model”: “grok-4-0709”})

关于 XAI Grok 的更多详情：https://docs.x.ai/docs/overview#featured-models

请确保已将你的 Anthropic API 密钥设置为环境变量 ANTHROPIC_API_KEY。

config.set_provider_config(“llm”, “Anthropic”, {“model”: “claude-sonnet-4-0”})

关于 Anthropic Claude 的更多详情：https://docs.anthropic.com/en/home

请确保已将你的 Gemini API 密钥设置为环境变量 GEMINI_API_KEY。

config.set_provider_config(‘llm’, ‘Gemini’, { ‘model’: ‘gemini-2.0-flash’ })

运行前需要安装 gemini，执行：pip install google-genai。关于 Gemini 的更多详情：https://ai.google.dev/gemini-api/docs

请确保已将你的 PPIO API 密钥设置为环境变量 PPIO_API_KEY。你可以在此处创建 API 密钥。

config.set_provider_config(“llm”, “PPIO”, {“model”: “deepseek/deepseek-r1-turbo”})

关于 PPIO 的更多详情：https://ppinfra.com/docs/get-started/quickstart.html?utm_source=github_deep-searcher

请确保已将你的 Jiekou.AI API 密钥设置为环境变量 JIEKOU_API_KEY。你可以在此处创建 API 密钥。

config.set_provider_config(“llm”, “JiekouAI”, {“model”: “claude-sonnet-4-5-20250929”})

关于 Jiekou.AI 的更多详情：https://docs.jiekou.ai/docs/support/quickstart?utm_source=github_deep-searcher

按照以下说明设置并运行本地 Ollama 实例：

下载并安装适用于可用平台（包括 Windows Subsystem for Linux）的 Ollama。

通过模型库查看可用模型列表。

通过 ollama pull <模型名称> 获取可用的 LLM 模型。

例如：ollama pull qwen3

如需通过命令行直接与模型对话，请使用 ollama run <模型名称>。

默认情况下，Ollama 在 http://localhost:11434 提供用于运行和管理模型的 REST API。

config.set_provider_config(“llm”, “Ollama”, {“model”: “qwen3”})

请确保已将你的火山引擎 API 密钥设置为环境变量 VOLCENGINE_API_KEY。你可以在此处创建 API 密钥。

config.set_provider_config(“llm”, “Volcengine”, {“model”: “deepseek-r1-250120”})

关于火山引擎的更多详情：https://www.volcengine.com/docs/82379/1099455?utm_source=github_deep-searcher

请确保已将你的 GLM API 密钥设置为环境变量 GLM_API_KEY。

config.set_provider_config(“llm”, “GLM”, {“model”: “glm-4-plus”})

运行前需要安装 zhipuai，执行：pip install zhipuai。关于 GLM 的更多详情：https://bigmodel.cn/dev/welcome

请确保已将你的 Amazon Bedrock API 密钥设置为环境变量 AWS_ACCESS_KEY_ID 和 AWS_SECRET_ACCESS_KEY。

config.set_provider_config(“llm”, “Bedrock”, {“model”: “us.deepseek.r1-v1:0”})

运行前需要安装 boto3，执行：pip install boto3。关于 Amazon Bedrock 的更多详情：https://docs.aws.amazon.com/bedrock/

请确保已将你的 watsonx.ai 凭证设置为环境变量 WATSONX_APIKEY、WATSONX_URL 和 WATSONX_PROJECT_ID。

config.set_provider_config(“llm”, “watsonx”, {“model”: “us.deepseek.r1-v1:0”})

运行前需要安装 ibm-watsonx-ai，执行：pip install ibm-watsonx-ai。关于 IBM watsonx.ai 的更多详情：https://www.ibm.com/products/watsonx-ai/foundation-models

config.set_provider_config(“embedding”, “(嵌入模型名称)”, “(参数字典)”)

“嵌入模型名称“可以是以下之一：[“MilvusEmbedding”, “OpenAIEmbedding”, “VoyageEmbedding”, “SiliconflowEmbedding”, “PPIOEmbedding”, “NovitaEmbedding”, “JiekouAIEmbedding”]

“参数字典“是一个包含嵌入模型类所需必要参数的字典。

请确保已将你的 OpenAI API 密钥设置为环境变量 OPENAI_API_KEY。

config.set_provider_config(“embedding”, “OpenAIEmbedding”, {“model”: “text-embedding-3-small”})

关于 OpenAI 模型的更多详情：https://platform.openai.com/docs/guides/embeddings/use-cases

请确保已将你的 OpenAI API 密钥设置为环境变量 OPENAI_API_KEY。

config.set_provider_config(“embedding”, “OpenAIEmbedding”, { “model”: “text-embedding-ada-002”, “azure_endpoint”: “https://.openai.azure.com/”, “api_version”: “2023-05-15” })

使用 Pymilvus 内置的嵌入模型，你可以将模型名称设置为 “default”、“BAAI/bge-base-en-v1.5”、“BAAI/bge-large-en-v1.5”、“jina-embeddings-v3” 等。更多详情请参见 milvus_embedding.py。

config.set_provider_config(“embedding”, “MilvusEmbedding”, {“model”: “BAAI/bge-base-en-v1.5”})

config.set_provider_config(“embedding”, “MilvusEmbedding”, {“model”: “jina-embeddings-v3”})

对于 Jina 的嵌入模型，你需要 JINAAI_API_KEY。

运行前需要安装 pymilvus model，执行：pip install pymilvus.model。关于 Pymilvus 的更多详情：https://milvus.io/docs/embeddings.md

请确保已将你的 Voyage API 密钥设置为环境变量 VOYAGE_API_KEY。

config.set_provider_config(“embedding”, “VoyageEmbedding”, {“model”: “voyage-3”})

运行前需要安装 voyageai，执行：pip install voyageai。关于 VoyageAI 的更多详情：https://docs.voyageai.com/embeddings/

config.set_provider_config(“embedding”, “BedrockEmbedding”, {“model”: “amazon.titan-embed-text-v2:0”})

运行前需要安装 boto3，执行：pip install boto3。关于 Amazon Bedrock 的更多详情：https://docs.aws.amazon.com/bedrock/

请确保已将你的 Novita AI API 密钥设置为环境变量 NOVITA_API_KEY。

config.set_provider_config(“embedding”, “NovitaEmbedding”, {“model”: “baai/bge-m3”})

关于 Novita AI 的更多详情：https://novita.ai/docs/api-reference/model-apis-llm-create-embeddings?utm_source=github_deep-searcher&utm_medium=github_readme&utm_campaign=link

请确保已将你的 Siliconflow API 密钥设置为环境变量 SILICONFLOW_API_KEY。

config.set_provider_config(“embedding”, “SiliconflowEmbedding”, {“model”: “BAAI/bge-m3”})

关于 Siliconflow 的更多详情：https://docs.siliconflow.cn/en/api-reference/embeddings/create-embeddings

请确保已将你的火山引擎 API 密钥设置为环境变量 VOLCENGINE_API_KEY。

config.set_provider_config(“embedding”, “VolcengineEmbedding”, {“model”: “doubao-embedding-text-240515”})

关于火山引擎的更多详情：https://www.volcengine.com/docs/82379/1302003

请确保已将你的 GLM API 密钥设置为环境变量 GLM_API_KEY。

config.set_provider_config(“embedding”, “GLMEmbedding”, {“model”: “embedding-3”})

运行前需要安装 zhipuai，执行：pip install zhipuai。关于 GLM 的更多详情：https://bigmodel.cn/dev/welcome

请确保已将你的 Gemini API 密钥设置为环境变量 GEMINI_API_KEY。

config.set_provider_config(“embedding”, “GeminiEmbedding”, {“model”: “text-embedding-004”})

运行前需要安装 gemini，执行：pip install google-genai。关于 Gemini 的更多详情：https://ai.google.dev/gemini-api/docs

config.set_provider_config(“embedding”, “OllamaEmbedding”, {“model”: “bge-m3”})

运行前需要安装 ollama，执行：pip install ollama。关于 Ollama Python SDK 的更多详情：https://github.com/ollama/ollama-python

请确保已将你的 PPIO API 密钥设置为环境变量 PPIO_API_KEY。

config.set_provider_config(“embedding”, “PPIOEmbedding”, {“model”: “baai/bge-m3”})

关于 PPIO 的更多详情：https://ppinfra.com/docs/get-started/quickstart.html?utm_source=github_deep-searcher

请确保已将你的 Jiekou.AI API 密钥设置为环境变量 JIEKOU_API_KEY。

config.set_provider_config(“embedding”, “JiekouAIEmbedding”, {“model”: “qwen/qwen3-embedding-8b”})

关于 Jiekou.AI 的更多详情：https://docs.jiekou.ai/docs/support/quickstart?utm_source=github_deep-searcher

config.set_provider_config(“embedding”, “FastEmbedEmbedding”, {“model”: “intfloat/multilingual-e5-large”})

运行前需要安装 fastembed，执行：pip install fastembed。关于 fastembed 的更多详情：https://github.com/qdrant/fastembed

请确保已将你的 WatsonX 凭证设置为环境变量 WATSONX_APIKEY、WATSONX_URL 和 WATSONX_PROJECT_ID。

config.set_provider_config(“embedding”, “WatsonXEmbedding”, {“model”: “ibm/slate-125m-english-rtrvr-v2”})

config.set_provider_config(“embedding”, “WatsonXEmbedding”, {“model”: “sentence-transformers/all-minilm-l6-v2”})

运行前需要安装 ibm-watsonx-ai，执行：pip install ibm-watsonx-ai。关于 IBM watsonx.ai 的更多详情：https://www.ibm.com/products/watsonx-ai/foundation-models

config.set_provider_config(“vector_db”, “(向量数据库名称)”, “(参数字典)”)

“向量数据库名称“可以是以下之一：[“Milvus”]（开发中）

“参数字典“是一个包含向量数据库类所需必要参数的字典。

config.set_provider_config(“vector_db”, “Milvus”, {“uri”: “./milvus.db”, “token”: “”}}

关于 Milvus 配置的更多详情：

将 uri 设置为本地文件（例如 ./milvus.db）是最便捷的方法，它会自动使用 Milvus Lite 将所有数据存储在该文件中。

如果你有一个大规模数据集，可以使用 Docker 或 Kubernetes 搭建一个性能更强的 Milvus 服务器。在此设置中，使用服务器 URI（例如 http://localhost:19530）作为你的 uri。你还可以使用 Milvus 支持的其他连接参数，如 host、user、password 或 secure。

如果你想使用 Zilliz Cloud（Milvus 的全托管云服务），请根据 Zilliz Cloud 中的公共端点和 API 密钥调整 uri 和 token。

config.set_provider_config(“vector_db”, “AzureSearch”, { “endpoint”: “https://.search.windows.net”, “index_name”: “”, “api_key”: “”, “vector_field”: “” })

关于 Milvus 配置的更多详情：

config.set_provider_config(“file_loader”, “(文件加载器名称)”, “(参数字典)”)

“文件加载器名称“可以是以下之一：[“PDFLoader”, “TextLoader”, “UnstructuredLoader”]

“参数字典“是一个包含文件加载器类所需必要参数的字典。

你可以通过两种方式使用 Unstructured：

通过 API：设置环境变量 UNSTRUCTURED_API_KEY 和 UNSTRUCTURED_API_URL

不通过 API：使用本地处理模式，只需不设置这些环境变量即可

config.set_provider_config(“file_loader”, “UnstructuredLoader”, {})

当前支持的文件类型：[“pdf”]（开发中）

安装要求：安装 ingest 管道：pip install unstructured-ingest 对于所有文档格式：pip install “unstructured[all-docs]” 对于特定格式（例如仅 PDF）：pip install “unstructured[pdf]”

安装 ingest 管道：pip install unstructured-ingest

对于所有文档格式：pip install “unstructured[all-docs]”

对于特定格式（例如仅 PDF）：pip install “unstructured[pdf]”

更多信息： Unstructured 文档：https://docs.unstructured.io/ingestion/overview 安装指南：https://docs.unstructured.io/open-source/installation/full-installation

Unstructured 文档：https://docs.unstructured.io/ingestion/overview

安装指南：https://docs.unstructured.io/open-source/installation/full-installation

config.set_provider_config(“file_loader”, “DoclingLoader”, {})

当前支持的文件类型：请参考 Docling 文档：https://docling-project.github.io/docling/usage/supported_formats/#supported-output-formats

运行前需要安装 docling，执行：pip install docling。关于 Docling 的更多详情：https://docling-project.github.io/docling/

config.set_provider_config(“web_crawler”, “(网页爬虫名称)”, “(参数字典)”)

“网页爬虫名称“可以是以下之一：[“FireCrawlCrawler”, “Crawl4AICrawler”, “JinaCrawler”]

“参数字典“是一个包含网页爬虫类所需必要参数的字典。

请确保已将你的 FireCrawl API 密钥设置为环境变量 FIRECRAWL_API_KEY。

config.set_provider_config(“web_crawler”, “FireCrawlCrawler”, {})

关于 FireCrawl 的更多详情：https://docs.firecrawl.dev/introduction

请确保已在你的环境中运行了 crawl4ai-setup。

config.set_provider_config(“web_crawler”, “Crawl4AICrawler”, {“browser_config”: {“headless”: True, “verbose”: True}})

运行前需要安装 crawl4ai，执行：pip install crawl4ai。关于 Crawl4AI 的更多详情：https://docs.crawl4ai.com/

请确保已将你的 Jina Reader API 密钥设置为环境变量 JINA_API_TOKEN 或 JINAAI_API_KEY。

config.set_provider_config(“web_crawler”, “JinaCrawler”, {})

关于 Jina Reader 的更多详情：https://jina.ai/reader/

config.set_provider_config(“web_crawler”, “DoclingCrawler”, {})

当前支持的文件类型：请参考 Docling 文档：https://docling-project.github.io/docling/usage/supported_formats/#supported-output-formats

运行前需要安装 docling，执行：pip install docling。关于 Docling 的更多详情：https://docling-project.github.io/docling/

@tom_doerr: 使用LLMs对私有数据进行深度研究的自动化 https://github.com/zilliztech/deep-searcher…

相似文章

LearningCircuit/local-deep-research

@tom_doerr: 从知识图谱训练深度搜索代理 https://github.com/THUDM/DeepDive

@tom_doerr：开源长周期深度研究智能体 https://github.com/TIGER-AI-Lab/OpenResearcher…

@tom_doerr: 完全开源 30B 规模搜索智能体的训练数据 https://github.com/PolarSeeker/OpenSeeker…

@tom_doerr: 从原始数据生成LLM就绪的数据集 https://github.com/OpenDCAI/DataFlow…

提交意见反馈