@_avichawla: 排名第一的深度研究系统用一个Claude和ChatGPT都没用的技巧击败了它们。我研究了其开源架构……

X AI KOLs Timeline 模型

摘要

Onyx开源深度研究系统通过从其编排代理中移除搜索权限,迫使其将查询分解为聚焦的研究线程,从而获得最高排名。其三阶段流水线和两级架构防止了信息失真和过早回答,性能优于OpenAI、Anthropic和Google的专有解决方案。

排名第一的深度研究系统用一个Claude和ChatGPT都没用的技巧击败了它们。 我研究了它背后的开源架构。 我发现一个反直觉的地方:负责整个研究策略的编排代理竟然没有搜索权限。 它无法查询网页或打开URL。 乍一看这似乎有问题。其他所有深度研究系统都赋予其协调器更强的能力。 例如: - OpenAI的方法训练单一模型进行多次连续的工具调用。它搜索、阅读、推理并撰写报告,在一个长顺序链中完成。 ↳ 排名第一的系统(Onyx)背后的研究者观察到,这导致模型将时间花在低价值的搜索上,而不是维持高层次的研究策略。 - Anthropic和Google使用与Onyx系统类似的编排-研究者模式。关键区别在于Onyx对编排器的限制程度更严格。 大多数编排器除了调度能力外,还拥有搜索和检索工具。一旦编排器能够搜索,它就会去做。 因此,它不会将查询分解为聚焦的研究线索,而是直接开始回答问题。 它拉取几个结果,跳过适当的任务分解,然后根据最初找到的内容生成一份表面层次的报告。 从编排器中移除搜索功能,迫使它为每个研究代理编写自包含且连贯的任务简报。 研究者还将架构保持在只有两个层级。当信息通过多个代理时,每个代理都会通过总结/重新解释微妙地扭曲信息。保持两个层级可以防止这种情况。 这两个约束内嵌在一个更大的三阶段流水线中(下方图示说明了这一点): → 阶段1将查询分解为最多6个研究方向。无工具访问权限防止模型过早回答。 → 阶段2分派3个独立的研究代理。每个代理执行最多8次搜索、阅读和思考的子循环,以生成带引用的中间报告。 这些代理还可以搜索内部企业文档(Confluence、Slack,以及100多个连接器),并强制执行文档级权限,这与专有解决方案不同。 → 阶段3运行一个确定性步骤,重新编号并去重,以生成带有统一引用映射的报告。 该模式在DeepResearch Bench上排名第一。整个实现已在GitHub上发布,你可以亲自尝试。 这里是Onyx仓库:https://github.com/onyx-dot-app/onyx… (别忘了给它点个星 ) 我的联合创始人写了一篇详细文章,介绍如何使用Onyx作为深度研究层、CrewAI作为编排工具、以及Mistral的Voxtral作为语音输入/输出,构建一个完全开源的深度研究者。 请阅读下文。
查看原文
查看缓存全文

缓存时间: 2026/05/25 10:49

排名第一的深度研究者用一种两者都不用的技巧击败了Claude和ChatGPT。我研究了其背后的开源架构。一个反直觉的发现是:运行整个研究策略的编排器智能体没有搜索权限。它无法查询网页或打开URL。乍一看这似乎不对。其他所有深度研究系统都赋予其协调器更强大的能力。例如:

  • OpenAI 的方法训练单个模型进行连续多次工具调用。它搜索、阅读、推理并撰写出报告,整个过程在一个长顺序链中完成。↳ 排名第一的系统(Onyx)背后的研究者观察到,这导致模型将精力花在低价值的搜索上,而不是维持高层次的研究策略。
  • Anthropic 和 Google 使用的编排器-研究员模式与 Onyx 系统类似。关键区别在于 Onyx 对编排器的约束力度。大多数编排器除了分派能力外,还拥有搜索和检索工具的访问权限。一旦编排器能够搜索,它就会去搜索。因此,它不会将查询分解为聚焦的研究线程,而是自行开始回答问题。它拉取几个结果,跳过适当的任务分解,然后根据最先找到的内容生成一份肤浅的报告。从编排器中剥离搜索能力,迫使它为每个研究智能体编写独立且连贯的任务简报。研究者还将架构仅保持为两层深度。当信息经过多个智能体时,每个智能体都会通过总结/重新解释微妙地扭曲信息。保持两层可避免这种情况。

这两个约束存在于一个更大的三阶段流水线中(下图展示了这一流程): → 阶段 1 将查询分解为最多 6 个研究方向。无工具访问可防止模型过早作答。 → 阶段 2 分派 3 个独立的研究智能体。每个智能体最多执行 8 个子循环:搜索、阅读和思考,并生成带有引用的中间报告。这些智能体还可以搜索内部企业文档(Confluence、Slack 及 100+ 连接器),并强制执行文档级权限,这与专有解决方案不同。 → 阶段 3 执行确定性步骤,重新编号并去重,生成带有统一引用映射的报告。

该模式在 DeepResearch 基准测试中排名第一。整个实现已在 GitHub 上开源,您可以亲自尝试。以下是 Onyx 仓库:https://github.com/onyx-dot-app/onyx… (别忘了加星标 😊)我的联合创始人撰写了一篇详细文章,介绍如何使用 Onyx 作为深度研究层、CrewAI 进行编排、以及 Mistral 的 Voxtral 进行语音输入/输出,来构建一个完全开源的深度研究者。请阅读下文。


onyx-dot-app/onyx

来源:https://github.com/onyx-dot-app/onyx

Onyx - 开源 AI 平台

Onyx (https://www.onyx.app/?utm_source=onyx_repo&utm_medium=github&utm_campaign=readme) 是 LLM 的应用层——提供了功能丰富的界面,任何人都可以轻松托管。Onyx 通过 RAG、网页搜索、代码执行、文件创建、深度研究等高级能力增强 LLM。通过内置的 50 多个基于索引的连接器或通过 MCP 连接您的应用程序。

一键部署:

curl -fsSL https://onyx.app/install_onyx.sh | bash

Onyx 聊天静默演示


⭐ 功能

  • 🔍 智能 RAG: 基于混合索引 + AI 智能体的信息检索,提供一流的搜索和答案质量——基准测试即将发布!
  • 🔬 深度研究: 通过多步骤研究流程生成深入报告。截至 2026 年 2 月,在排行榜 (https://github.com/onyx-dot-app/onyx_deep_research_bench) 上排名第一。
  • 🤖 自定义智能体: 构建具有独特指令、知识和动作的 AI 智能体。
  • 🌍 网页搜索: 浏览网页获取最新信息。支持 Serper、Google PSE、Brave、SearXNG 等。配备内部网页爬虫,并支持 Firecrawl/Exa。
  • 📄 工件: 生成文档、图形和其他可下载的工件。
  • ▶️ 动作与 MCP: 让 Onyx 智能体与外部应用交互,附带灵活的认证选项。
  • 💻 代码执行: 在沙箱中执行代码以分析数据、渲染图形或修改文件。
  • 🎙️ 语音模式: 通过文本转语音和语音转文本与 Onyx 对话。
  • 🎨 图像生成: 根据用户提示生成图像。

Onyx 支持所有主流 LLM 提供商,包括自托管(如 Ollama、LiteLLM、vLLM 等)和专有(如 Anthropic、OpenAI、Gemini 等)。了解更多,请查看我们的文档 (https://docs.onyx.app/welcome?utm_source=onyx_repo&utm_medium=github&utm_campaign=readme)!


🚀 部署模式

Onyx 支持在 Docker、Kubernetes、Helm/Terraform 中部署,并为主要云提供商提供指南。 详细部署指南请见此处 (https://docs.onyx.app/deployment/overview)。

Onyx 支持两种部署选项:标准版和精简版。

Onyx 精简版

精简版可视为轻量级聊天 UI。所需资源较少(低于 1GB 内存),运行的堆栈较为简单。非常适合希望快速试用 Onyx 的用户,或仅对聊天 UI 和智能体功能感兴趣的团队。

标准版 Onyx

完整功能集,推荐给严肃用户和大型团队。相比精简版增加以下组件:

  • 用于 RAG 的向量+关键词索引。
  • 后台容器,用于运行作业队列和工作线程,从连接器同步知识。
  • AI 模型推理服务器,用于运行索引和推理时所用的深度学习模型。
  • 通过内存缓存 (Redis) 和对象存储 (MinIO) 进行大规模性能优化。

如果您想免费试用 Onyx 而无需部署,请访问 Onyx Cloud (https://cloud.onyx.app/signup?utm_source=onyx_repo&utm_medium=github&utm_campaign=readme)


🏢 企业级 Onyx

Onyx 专为各种规模的团队设计,从个人用户到全球大型企业:

  • 👥 协作:与组织内其他成员共享聊天和智能体。
  • 🔐 单点登录:通过 Google OAuth、OIDC 或 SAML 实现 SSO。通过 SCIM 进行群组同步和用户预置。
  • 🛡️ 基于角色的访问控制:对敏感资源(如智能体、动作等)进行 RBAC。
  • 📊 分析:按团队、LLM 或智能体划分的使用图表。
  • 🕵️ 查询历史:审计使用情况,确保 AI 在组织中的安全采用。
  • 💻 自定义代码:运行自定义代码以去除 PII、拒绝敏感查询或执行自定义分析。
  • 🎨 白标:使用自定义名称、图标、横幅等定制 Onyx 的外观和感觉。

📚 许可

Onyx 有两个版本:

  • Onyx 社区版 (CE) 基于 MIT 许可证免费提供,涵盖聊天、RAG、智能体和动作的所有核心功能。
  • Onyx 企业版 (EE) 包含主要对大型组织有用的额外功能。功能详情请查看我们的网站 (https://www.onyx.app/pricing?utm_source=onyx_repo&utm_medium=github&utm_campaign=readme)。

👪 社区

加入我们在 Discord (https://discord.gg/TDJ59cGV2X) 上的开源社区!

💡 贡献

想要贡献?请查看 贡献指南 了解更多详情。

相似文章

@berryxia: 这个团队的研究也是有点反常识,对于LLM的研究调度也是有点不一样的研究。 一个开源团队发现把深度研究系统中最聪明的总指挥调节器直接剥夺搜索权限。 反而让整个系统在DeepResearch Bench上直接登顶吊打Claude和ChatGP…

X AI KOLs Timeline

一个开源团队发现通过剥夺深度研究系统中调度器的搜索权限,迫使它进行高阶战略思考,从而让Onyx在DeepResearch Bench上超越Claude和ChatGPT,成为最强的开源深度研究员。

推出深度研究

OpenAI Blog

OpenAI 推出深度研究功能,这是 ChatGPT 中由 o3 驱动的代理能力,能够自主进行多步骤互联网研究以生成专业级分析报告,从 2026 年 2 月起扩展访问权限和功能。

利用深度研究功能理解复杂趋势

OpenAI Blog

OpenAI 为 ChatGPT 推出深度研究功能,使 Bain & Company 等研究人员能够更高效地分析复杂的行业趋势。该工具通过自动化分析任务来增强研究能力。

新DeepSWE基准测试发现Claude Opus作弊

Reddit r/LocalLLaMA

Datacurve的DeepSWE基准测试揭示了AI编码代理之间的显著性能差距,发现Claude Opus利用了基准测试的漏洞,并认定GPT-5.5以70%的成功率领先。该基准测试还发现广泛使用的SWE-Bench Pro验证器存在32%的错误率。