@tom_doerr: 使用LLMs对私有数据进行深度研究的自动化 https://github.com/zilliztech/deep-searcher…

X AI KOLs Timeline 工具

摘要

DeepSearcher 是一个开源工具,结合了LLMs和向量数据库,能够对私有数据进行深度研究,为企业知识管理和智能问答系统提供准确的答案和报告。

使用LLMs对私有数据进行深度研究的自动化 https://t.co/mP4VSVAK8U https://t.co/mmMQETzHJS
查看原文
查看缓存全文

缓存时间: 2026/06/14 07:39

config.set_provider_config(“llm”, “(LLM名称)”, “(参数字典)”)

“LLM名称“可以是以下之一:[“DeepSeek”, “OpenAI”, “XAI”, “SiliconFlow”, “Aliyun”, “PPIO”, “TogetherAI”, “Gemini”, “Ollama”, “Novita”, “Jiekou.AI”]

“参数字典“是一个包含 LLM 类所需必要参数的字典。

请确保已将你的 OpenAI API 密钥设置为环境变量 OPENAI_API_KEY。

config.set_provider_config(“llm”, “OpenAI”, {“model”: “o1-mini”})

关于 OpenAI 模型的更多详情:https://platform.openai.com/docs/models

请确保已将你的阿里云百炼 API 密钥设置为环境变量 DASHSCOPE_API_KEY。

config.set_provider_config(“llm”, “Aliyun”, {“model”: “qwen-plus-latest”})

关于阿里云百炼模型的更多详情:https://bailian.console.aliyun.com

config.set_provider_config(“llm”, “OpenAI”, {“model”: “qwen/qwen3-235b-a22b:free”, “base_url”: “https://openrouter.ai/api/v1”, “api_key”: “OPENROUTER_API_KEY”})

关于 OpenRouter 模型的更多详情:https://openrouter.ai/qwen/qwen3-235b-a22b:free

请确保已将你的 DeepSeek API 密钥设置为环境变量 DEEPSEEK_API_KEY。

config.set_provider_config(“llm”, “DeepSeek”, {“model”: “deepseek-reasoner”})

关于 DeepSeek 的更多详情:https://api-docs.deepseek.com/

请确保已将你的 SiliconFlow API 密钥设置为环境变量 SILICONFLOW_API_KEY。

config.set_provider_config(“llm”, “SiliconFlow”, {“model”: “deepseek-ai/DeepSeek-R1”})

关于 SiliconFlow 的更多详情:https://docs.siliconflow.cn/quickstart

请确保已将你的 Together API 密钥设置为环境变量 TOGETHER_API_KEY。

config.set_provider_config(“llm”, “TogetherAI”, {“model”: “deepseek-ai/DeepSeek-R1”})

config.set_provider_config(“llm”, “TogetherAI”, {“model”: “meta-llama/Llama-4-Scout-17B-16E-Instruct”})

运行前需要安装 together,执行:pip install together。关于 TogetherAI 的更多详情:https://www.together.ai/

请确保已将你的 XAI API 密钥设置为环境变量 XAI_API_KEY。

config.set_provider_config(“llm”, “XAI”, {“model”: “grok-4-0709”})

关于 XAI Grok 的更多详情:https://docs.x.ai/docs/overview#featured-models

请确保已将你的 Anthropic API 密钥设置为环境变量 ANTHROPIC_API_KEY。

config.set_provider_config(“llm”, “Anthropic”, {“model”: “claude-sonnet-4-0”})

关于 Anthropic Claude 的更多详情:https://docs.anthropic.com/en/home

请确保已将你的 Gemini API 密钥设置为环境变量 GEMINI_API_KEY。

config.set_provider_config(‘llm’, ‘Gemini’, { ‘model’: ‘gemini-2.0-flash’ })

运行前需要安装 gemini,执行:pip install google-genai。关于 Gemini 的更多详情:https://ai.google.dev/gemini-api/docs

请确保已将你的 PPIO API 密钥设置为环境变量 PPIO_API_KEY。你可以在此处创建 API 密钥。

config.set_provider_config(“llm”, “PPIO”, {“model”: “deepseek/deepseek-r1-turbo”})

关于 PPIO 的更多详情:https://ppinfra.com/docs/get-started/quickstart.html?utm_source=github_deep-searcher

请确保已将你的 Jiekou.AI API 密钥设置为环境变量 JIEKOU_API_KEY。你可以在此处创建 API 密钥。

config.set_provider_config(“llm”, “JiekouAI”, {“model”: “claude-sonnet-4-5-20250929”})

关于 Jiekou.AI 的更多详情:https://docs.jiekou.ai/docs/support/quickstart?utm_source=github_deep-searcher

按照以下说明设置并运行本地 Ollama 实例:

下载并安装适用于可用平台(包括 Windows Subsystem for Linux)的 Ollama。

通过模型库查看可用模型列表。

通过 ollama pull <模型名称> 获取可用的 LLM 模型。

例如:ollama pull qwen3

如需通过命令行直接与模型对话,请使用 ollama run <模型名称>

默认情况下,Ollama 在 http://localhost:11434 提供用于运行和管理模型的 REST API。

config.set_provider_config(“llm”, “Ollama”, {“model”: “qwen3”})

请确保已将你的火山引擎 API 密钥设置为环境变量 VOLCENGINE_API_KEY。你可以在此处创建 API 密钥。

config.set_provider_config(“llm”, “Volcengine”, {“model”: “deepseek-r1-250120”})

关于火山引擎的更多详情:https://www.volcengine.com/docs/82379/1099455?utm_source=github_deep-searcher

请确保已将你的 GLM API 密钥设置为环境变量 GLM_API_KEY。

config.set_provider_config(“llm”, “GLM”, {“model”: “glm-4-plus”})

运行前需要安装 zhipuai,执行:pip install zhipuai。关于 GLM 的更多详情:https://bigmodel.cn/dev/welcome

请确保已将你的 Amazon Bedrock API 密钥设置为环境变量 AWS_ACCESS_KEY_ID 和 AWS_SECRET_ACCESS_KEY。

config.set_provider_config(“llm”, “Bedrock”, {“model”: “us.deepseek.r1-v1:0”})

运行前需要安装 boto3,执行:pip install boto3。关于 Amazon Bedrock 的更多详情:https://docs.aws.amazon.com/bedrock/

请确保已将你的 watsonx.ai 凭证设置为环境变量 WATSONX_APIKEY、WATSONX_URL 和 WATSONX_PROJECT_ID。

config.set_provider_config(“llm”, “watsonx”, {“model”: “us.deepseek.r1-v1:0”})

运行前需要安装 ibm-watsonx-ai,执行:pip install ibm-watsonx-ai。关于 IBM watsonx.ai 的更多详情:https://www.ibm.com/products/watsonx-ai/foundation-models

config.set_provider_config(“embedding”, “(嵌入模型名称)”, “(参数字典)”)

“嵌入模型名称“可以是以下之一:[“MilvusEmbedding”, “OpenAIEmbedding”, “VoyageEmbedding”, “SiliconflowEmbedding”, “PPIOEmbedding”, “NovitaEmbedding”, “JiekouAIEmbedding”]

“参数字典“是一个包含嵌入模型类所需必要参数的字典。

请确保已将你的 OpenAI API 密钥设置为环境变量 OPENAI_API_KEY。

config.set_provider_config(“embedding”, “OpenAIEmbedding”, {“model”: “text-embedding-3-small”})

关于 OpenAI 模型的更多详情:https://platform.openai.com/docs/guides/embeddings/use-cases

请确保已将你的 OpenAI API 密钥设置为环境变量 OPENAI_API_KEY。

config.set_provider_config(“embedding”, “OpenAIEmbedding”, { “model”: “text-embedding-ada-002”, “azure_endpoint”: “https://.openai.azure.com/”, “api_version”: “2023-05-15” })

使用 Pymilvus 内置的嵌入模型,你可以将模型名称设置为 “default”、“BAAI/bge-base-en-v1.5”、“BAAI/bge-large-en-v1.5”、“jina-embeddings-v3” 等。更多详情请参见 milvus_embedding.py

config.set_provider_config(“embedding”, “MilvusEmbedding”, {“model”: “BAAI/bge-base-en-v1.5”})

config.set_provider_config(“embedding”, “MilvusEmbedding”, {“model”: “jina-embeddings-v3”})

对于 Jina 的嵌入模型,你需要 JINAAI_API_KEY

运行前需要安装 pymilvus model,执行:pip install pymilvus.model。关于 Pymilvus 的更多详情:https://milvus.io/docs/embeddings.md

请确保已将你的 Voyage API 密钥设置为环境变量 VOYAGE_API_KEY。

config.set_provider_config(“embedding”, “VoyageEmbedding”, {“model”: “voyage-3”})

运行前需要安装 voyageai,执行:pip install voyageai。关于 VoyageAI 的更多详情:https://docs.voyageai.com/embeddings/

config.set_provider_config(“embedding”, “BedrockEmbedding”, {“model”: “amazon.titan-embed-text-v2:0”})

运行前需要安装 boto3,执行:pip install boto3。关于 Amazon Bedrock 的更多详情:https://docs.aws.amazon.com/bedrock/

请确保已将你的 Novita AI API 密钥设置为环境变量 NOVITA_API_KEY。

config.set_provider_config(“embedding”, “NovitaEmbedding”, {“model”: “baai/bge-m3”})

关于 Novita AI 的更多详情:https://novita.ai/docs/api-reference/model-apis-llm-create-embeddings?utm_source=github_deep-searcher&utm_medium=github_readme&utm_campaign=link

请确保已将你的 Siliconflow API 密钥设置为环境变量 SILICONFLOW_API_KEY。

config.set_provider_config(“embedding”, “SiliconflowEmbedding”, {“model”: “BAAI/bge-m3”})

关于 Siliconflow 的更多详情:https://docs.siliconflow.cn/en/api-reference/embeddings/create-embeddings

请确保已将你的火山引擎 API 密钥设置为环境变量 VOLCENGINE_API_KEY。

config.set_provider_config(“embedding”, “VolcengineEmbedding”, {“model”: “doubao-embedding-text-240515”})

关于火山引擎的更多详情:https://www.volcengine.com/docs/82379/1302003

请确保已将你的 GLM API 密钥设置为环境变量 GLM_API_KEY。

config.set_provider_config(“embedding”, “GLMEmbedding”, {“model”: “embedding-3”})

运行前需要安装 zhipuai,执行:pip install zhipuai。关于 GLM 的更多详情:https://bigmodel.cn/dev/welcome

请确保已将你的 Gemini API 密钥设置为环境变量 GEMINI_API_KEY。

config.set_provider_config(“embedding”, “GeminiEmbedding”, {“model”: “text-embedding-004”})

运行前需要安装 gemini,执行:pip install google-genai。关于 Gemini 的更多详情:https://ai.google.dev/gemini-api/docs

config.set_provider_config(“embedding”, “OllamaEmbedding”, {“model”: “bge-m3”})

运行前需要安装 ollama,执行:pip install ollama。关于 Ollama Python SDK 的更多详情:https://github.com/ollama/ollama-python

请确保已将你的 PPIO API 密钥设置为环境变量 PPIO_API_KEY。

config.set_provider_config(“embedding”, “PPIOEmbedding”, {“model”: “baai/bge-m3”})

关于 PPIO 的更多详情:https://ppinfra.com/docs/get-started/quickstart.html?utm_source=github_deep-searcher

请确保已将你的 Jiekou.AI API 密钥设置为环境变量 JIEKOU_API_KEY。

config.set_provider_config(“embedding”, “JiekouAIEmbedding”, {“model”: “qwen/qwen3-embedding-8b”})

关于 Jiekou.AI 的更多详情:https://docs.jiekou.ai/docs/support/quickstart?utm_source=github_deep-searcher

config.set_provider_config(“embedding”, “FastEmbedEmbedding”, {“model”: “intfloat/multilingual-e5-large”})

运行前需要安装 fastembed,执行:pip install fastembed。关于 fastembed 的更多详情:https://github.com/qdrant/fastembed

请确保已将你的 WatsonX 凭证设置为环境变量 WATSONX_APIKEY、WATSONX_URL 和 WATSONX_PROJECT_ID。

config.set_provider_config(“embedding”, “WatsonXEmbedding”, {“model”: “ibm/slate-125m-english-rtrvr-v2”})

config.set_provider_config(“embedding”, “WatsonXEmbedding”, {“model”: “sentence-transformers/all-minilm-l6-v2”})

运行前需要安装 ibm-watsonx-ai,执行:pip install ibm-watsonx-ai。关于 IBM watsonx.ai 的更多详情:https://www.ibm.com/products/watsonx-ai/foundation-models

config.set_provider_config(“vector_db”, “(向量数据库名称)”, “(参数字典)”)

“向量数据库名称“可以是以下之一:[“Milvus”](开发中)

“参数字典“是一个包含向量数据库类所需必要参数的字典。

config.set_provider_config(“vector_db”, “Milvus”, {“uri”: “./milvus.db”, “token”: “”}}

关于 Milvus 配置的更多详情:

将 uri 设置为本地文件(例如 ./milvus.db)是最便捷的方法,它会自动使用 Milvus Lite 将所有数据存储在该文件中。

如果你有一个大规模数据集,可以使用 Docker 或 Kubernetes 搭建一个性能更强的 Milvus 服务器。在此设置中,使用服务器 URI(例如 http://localhost:19530)作为你的 uri。你还可以使用 Milvus 支持的其他连接参数,如 host、user、password 或 secure。

如果你想使用 Zilliz Cloud(Milvus 的全托管云服务),请根据 Zilliz Cloud 中的公共端点和 API 密钥调整 uri 和 token。

config.set_provider_config(“vector_db”, “AzureSearch”, { “endpoint”: “https://.search.windows.net”, “index_name”: “”, “api_key”: “”, “vector_field”: “” })

关于 Milvus 配置的更多详情:

config.set_provider_config(“file_loader”, “(文件加载器名称)”, “(参数字典)”)

“文件加载器名称“可以是以下之一:[“PDFLoader”, “TextLoader”, “UnstructuredLoader”]

“参数字典“是一个包含文件加载器类所需必要参数的字典。

你可以通过两种方式使用 Unstructured:

通过 API:设置环境变量 UNSTRUCTURED_API_KEY 和 UNSTRUCTURED_API_URL

不通过 API:使用本地处理模式,只需不设置这些环境变量即可

config.set_provider_config(“file_loader”, “UnstructuredLoader”, {})

当前支持的文件类型:[“pdf”](开发中)

安装要求:安装 ingest 管道:pip install unstructured-ingest 对于所有文档格式:pip install “unstructured[all-docs]” 对于特定格式(例如仅 PDF):pip install “unstructured[pdf]”

安装 ingest 管道:pip install unstructured-ingest

对于所有文档格式:pip install “unstructured[all-docs]”

对于特定格式(例如仅 PDF):pip install “unstructured[pdf]”

更多信息: Unstructured 文档:https://docs.unstructured.io/ingestion/overview 安装指南:https://docs.unstructured.io/open-source/installation/full-installation

Unstructured 文档:https://docs.unstructured.io/ingestion/overview

安装指南:https://docs.unstructured.io/open-source/installation/full-installation

config.set_provider_config(“file_loader”, “DoclingLoader”, {})

当前支持的文件类型:请参考 Docling 文档:https://docling-project.github.io/docling/usage/supported_formats/#supported-output-formats

运行前需要安装 docling,执行:pip install docling。关于 Docling 的更多详情:https://docling-project.github.io/docling/

config.set_provider_config(“web_crawler”, “(网页爬虫名称)”, “(参数字典)”)

“网页爬虫名称“可以是以下之一:[“FireCrawlCrawler”, “Crawl4AICrawler”, “JinaCrawler”]

“参数字典“是一个包含网页爬虫类所需必要参数的字典。

请确保已将你的 FireCrawl API 密钥设置为环境变量 FIRECRAWL_API_KEY。

config.set_provider_config(“web_crawler”, “FireCrawlCrawler”, {})

关于 FireCrawl 的更多详情:https://docs.firecrawl.dev/introduction

请确保已在你的环境中运行了 crawl4ai-setup。

config.set_provider_config(“web_crawler”, “Crawl4AICrawler”, {“browser_config”: {“headless”: True, “verbose”: True}})

运行前需要安装 crawl4ai,执行:pip install crawl4ai。关于 Crawl4AI 的更多详情:https://docs.crawl4ai.com/

请确保已将你的 Jina Reader API 密钥设置为环境变量 JINA_API_TOKEN 或 JINAAI_API_KEY。

config.set_provider_config(“web_crawler”, “JinaCrawler”, {})

关于 Jina Reader 的更多详情:https://jina.ai/reader/

config.set_provider_config(“web_crawler”, “DoclingCrawler”, {})

当前支持的文件类型:请参考 Docling 文档:https://docling-project.github.io/docling/usage/supported_formats/#supported-output-formats

运行前需要安装 docling,执行:pip install docling。关于 Docling 的更多详情:https://docling-project.github.io/docling/

相似文章

LearningCircuit/local-deep-research

GitHub Trending (daily)

一款注重隐私的本地深度研究工具,支持多种大语言模型(LLM)和搜索引擎,在保持数据加密和本地化的同时,在问答任务上实现高精度。