@tom_doerr: 完全开源 30B 规模搜索智能体的训练数据 https://github.com/PolarSeeker/OpenSeeker…
摘要
OpenSeeker 完全开源了基于 ReAct 框架的 30B 规模搜索智能体的训练数据与模型,在多个基准测试(包括 BrowseComp 和 Humanity's Last Exam)上达到了最先进的性能。这是首个在前沿搜索基准上达到顶尖水平并同时公开完整训练数据的纯学术项目。
查看缓存全文
缓存时间: 2026/05/09 07:44
完全开源 30B 规模搜索智能体的训练数据 https://t.co/T3YsKzKGLe https://t.co/20GUqwJt43
PolarSeeker/OpenSeeker
来源:https://github.com/PolarSeeker/OpenSeeker
OpenSeeker:通过完全开源训练数据,推动前沿搜索智能体的普惠化
📰 动态
- 2026.05.06 📣 我们的 OpenSeeker-v2 仅通过简单的 SFT,在四项基准测试中于 30B 规模的基于 ReAct 的搜索智能体中取得了最先进的性能:BrowseComp 46.0%、BrowseComp-ZH 58.1%、Humanity’s Last Exam 34.6%、xbench 78.0%,甚至超越了采用 CPT+SFT+RL 重量级流程训练的通义 DeepResearch。代码即将开源!
- 2026.03.17 🚀 我们开源了 OpenSeeker-v1(包含全部数据与模型)。使用 11.7K 条训练样本,我们对 Qwen3-30B-A3B-Thinking-2507 进行了微调,在 BrowseComp-ZH 上达到 48.4%,BrowseComp 上达到 29.5%,xbench-DeepSearch 上达到 74.0%,WideSearch 上达到 59.4%。
概述
OpenSeeker 是一个开源搜索智能体系统,通过完全开源训练数据,让所有人都能获取前沿搜索能力。本项目支持研究人员和开发者构建、评估和部署用于复杂信息检索任务的高级搜索智能体。
🌟 核心成就
OpenSeeker 是纯学术团队的首个工作,在前沿搜索基准测试上达到最先进性能的同时,完整开源了全部训练数据。
快速开始
安装
克隆仓库并配置环境:
``bash
克隆仓库
git clone https://github.com/rui-ye/OpenSeeker.git cd OpenSeeker
创建 conda 环境
conda create –name openseeker python=3.10 conda activate openseeker pip install -r requirements.txt ``
模型配置
下载并部署 OpenSeeker 模型:
``bash
1. 安装 git-xet(下载模型所需)
brew install git-xet git xet install
2. 克隆 OpenSeeker 模型仓库
git clone https://huggingface.co/OpenSeeker/OpenSeeker-v1-30B-SFT
3. 在 run_openseeker.sh 中更新 MODEL_PATH,指向已下载的模型目录
编辑 run_openseeker.sh,设置 MODEL_PATH=“/path/to/OpenSeeker-v1-30B-SFT”
4. 启动模型服务
bash run_openseeker.sh ``
配置
``bash
在 setup_env.sh 中填写您的 API 端点和密钥
source setup_env.sh ``
使用方法
生成答案并评估结果:
``bash
为您的数据集生成答案
python eval/generate_answer.py
–dataset_path /path/to/your/dataset.jsonl
–out_dir /path/to/output/directory
评估生成的结果
python eval/eval.py
–data_path /path/to/output/directory/result_tool200.jsonl
–max_workers 20
``
项目结构
OpenSeeker/ ├── eval/ # 评估脚本 │ ├── eval.py # 主评估脚本 │ ├── generate_answer.py # 答案生成脚本 │ └── prompt.py # 提示词模板 ├── src/ # 核心源代码 │ ├── llm_tool_openseeker.py # LLM 工具接口 │ ├── config/ # 配置文件 │ │ └── chat_template.jinja # 对话模板配置 │ └── tools/ # 工具实现 │ ├── search.py # 搜索工具 │ └── visit.py # 网页访问工具 ├── run_openseeker.sh # 模型服务启动脚本 ├── setup_env.sh # 环境变量模板 └── README.md # 本文件
📚 引用
如果您在研究中使用了 OpenSeeker,请考虑引用:
``bibtex @article{du2026openseeker, title={OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data}, author={Du, Yuwen and Ye, Rui and Tang, Shuo and Zhu, Xinyu and Lu, Yijun and Cai, Yuzhu and Chen, Siheng}, journal={arXiv preprint arXiv:2603.15594}, year={2026} }
@article{du2026openseekerv2, title={OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories}, author={Du, Yuwen and Ye, Rui and Tang, Shuo and Huang, Keduan and Zhu, Xinyu and Cai, Yuzhu and Chen, Siheng}, journal={arXiv preprint arXiv:2605.04036}, year={2026} } ``
⭐ Star 历史
相似文章
@tom_doerr:开源长周期深度研究智能体 https://github.com/TIGER-AI-Lab/OpenResearcher…
TIGER-AI-Lab 发布 OpenResearcher,一款用于自动化长周期深度研究任务的开源智能体。
OpenSearch-VL:一种用于前沿多模态搜索智能体的开源训练配方
OpenSearch-VL 是一个开源框架及论文,介绍了一种利用强化学习训练前沿多模态搜索智能体的方法,其中包含专用的数据筛选流程以及一种新颖的训练算法。
DR-Venus:仅用1万开源数据打造边缘级前沿深度研究智能体
DR-Venus-4B 是一个40亿参数的深研智能体,仅利用1万条开源样本,通过「智能体SFT+回合级奖励RL」训练,在多项研究基准上超越以往90亿以下模型,逼近300亿级系统,且可部署于边缘设备。
BrowseComp:网页浏览智能体基准测试
OpenAI 发布了 BrowseComp,这是一个包含 1,266 个具有挑战性问题的基准测试,旨在衡量 AI 智能体在互联网上定位难以找到信息的能力,该基准已在其简易评估 GitHub 仓库中发布。
DeepSeek-V4:百万Token上下文,真正可供智能体使用
DeepSeek发布V4,这是一款MoE模型,拥有100万Token上下文窗口,通过混合注意力机制和降低KV缓存需求,针对智能体任务进行了优化。