@tom_doerr: 完全开源 30B 规模搜索智能体的训练数据 https://github.com/PolarSeeker/OpenSeeker…

X AI KOLs Timeline 模型

摘要

OpenSeeker 完全开源了基于 ReAct 框架的 30B 规模搜索智能体的训练数据与模型,在多个基准测试(包括 BrowseComp 和 Humanity's Last Exam)上达到了最先进的性能。这是首个在前沿搜索基准上达到顶尖水平并同时公开完整训练数据的纯学术项目。

完全开源 30B 规模搜索智能体的训练数据 https://t.co/T3YsKzKGLe https://t.co/20GUqwJt43
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/09 07:44

完全开源 30B 规模搜索智能体的训练数据 https://t.co/T3YsKzKGLe https://t.co/20GUqwJt43


PolarSeeker/OpenSeeker

来源:https://github.com/PolarSeeker/OpenSeeker

OpenSeeker:通过完全开源训练数据,推动前沿搜索智能体的普惠化

📰 动态

  • 2026.05.06 📣 我们的 OpenSeeker-v2 仅通过简单的 SFT,在四项基准测试中于 30B 规模的基于 ReAct 的搜索智能体中取得了最先进的性能:BrowseComp 46.0%、BrowseComp-ZH 58.1%、Humanity’s Last Exam 34.6%、xbench 78.0%,甚至超越了采用 CPT+SFT+RL 重量级流程训练的通义 DeepResearch。代码即将开源!
  • 2026.03.17 🚀 我们开源了 OpenSeeker-v1(包含全部数据与模型)。使用 11.7K 条训练样本,我们对 Qwen3-30B-A3B-Thinking-2507 进行了微调,在 BrowseComp-ZH 上达到 48.4%,BrowseComp 上达到 29.5%,xbench-DeepSearch 上达到 74.0%,WideSearch 上达到 59.4%

概述

OpenSeeker 是一个开源搜索智能体系统,通过完全开源训练数据,让所有人都能获取前沿搜索能力。本项目支持研究人员和开发者构建、评估和部署用于复杂信息检索任务的高级搜索智能体。


🌟 核心成就

OpenSeeker 是纯学术团队的首个工作,在前沿搜索基准测试上达到最先进性能的同时,完整开源了全部训练数据。


快速开始

安装

克隆仓库并配置环境:

``bash

克隆仓库

git clone https://github.com/rui-ye/OpenSeeker.git cd OpenSeeker

创建 conda 环境

conda create –name openseeker python=3.10 conda activate openseeker pip install -r requirements.txt ``

模型配置

下载并部署 OpenSeeker 模型:

``bash

1. 安装 git-xet(下载模型所需)

brew install git-xet git xet install

2. 克隆 OpenSeeker 模型仓库

git clone https://huggingface.co/OpenSeeker/OpenSeeker-v1-30B-SFT

3. 在 run_openseeker.sh 中更新 MODEL_PATH,指向已下载的模型目录

编辑 run_openseeker.sh,设置 MODEL_PATH=“/path/to/OpenSeeker-v1-30B-SFT”

4. 启动模型服务

bash run_openseeker.sh ``

配置

``bash

在 setup_env.sh 中填写您的 API 端点和密钥

source setup_env.sh ``

使用方法

生成答案并评估结果:

``bash

为您的数据集生成答案

python eval/generate_answer.py
–dataset_path /path/to/your/dataset.jsonl
–out_dir /path/to/output/directory

评估生成的结果

python eval/eval.py
–data_path /path/to/output/directory/result_tool200.jsonl
–max_workers 20 ``

项目结构

OpenSeeker/ ├── eval/ # 评估脚本 │ ├── eval.py # 主评估脚本 │ ├── generate_answer.py # 答案生成脚本 │ └── prompt.py # 提示词模板 ├── src/ # 核心源代码 │ ├── llm_tool_openseeker.py # LLM 工具接口 │ ├── config/ # 配置文件 │ │ └── chat_template.jinja # 对话模板配置 │ └── tools/ # 工具实现 │ ├── search.py # 搜索工具 │ └── visit.py # 网页访问工具 ├── run_openseeker.sh # 模型服务启动脚本 ├── setup_env.sh # 环境变量模板 └── README.md # 本文件

📚 引用

如果您在研究中使用了 OpenSeeker,请考虑引用:

``bibtex @article{du2026openseeker, title={OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data}, author={Du, Yuwen and Ye, Rui and Tang, Shuo and Zhu, Xinyu and Lu, Yijun and Cai, Yuzhu and Chen, Siheng}, journal={arXiv preprint arXiv:2603.15594}, year={2026} }

@article{du2026openseekerv2, title={OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories}, author={Du, Yuwen and Ye, Rui and Tang, Shuo and Huang, Keduan and Zhu, Xinyu and Cai, Yuzhu and Chen, Siheng}, journal={arXiv preprint arXiv:2605.04036}, year={2026} } ``

⭐ Star 历史

相似文章

BrowseComp:网页浏览智能体基准测试

OpenAI Blog

OpenAI 发布了 BrowseComp,这是一个包含 1,266 个具有挑战性问题的基准测试,旨在衡量 AI 智能体在互联网上定位难以找到信息的能力,该基准已在其简易评估 GitHub 仓库中发布。