@berryxia: 这个团队的研究也是有点反常识，对于LLM的研究调度也是有点不一样的研究。一个开源团队发现把深度研究系统中最聪明的总指挥调节器直接剥夺搜索权限。反而让整个系统在DeepResearch Bench上直接登顶吊打Claude和ChatGP…

X AI KOLs Timeline 2026/05/25 15:20 产品

open-source deep-research orchestrator agent search-permission benchmark onyx

摘要

一个开源团队发现通过剥夺深度研究系统中调度器的搜索权限，迫使它进行高阶战略思考，从而让Onyx在DeepResearch Bench上超越Claude和ChatGPT，成为最强的开源深度研究员。

这个团队的研究也是有点反常识，对于LLM的研究调度也是有点不一样的研究。一个开源团队发现把深度研究系统中最聪明的总指挥调节器直接剥夺搜索权限。反而让整个系统在DeepResearch Bench上直接登顶吊打Claude和ChatGPT。这个反直觉的设计让Onyx成为目前公开可用的最强深度研究员它叫Onyx GitHub上已经完全开源你现在就能跑故事听起来简单却戳穿了几乎所有大厂AI Agent的共同毛病。传统深度研究系统包括OpenAI o1系列Anthropic和Google的方案都给调节器塞满了工具它能搜索网页打开链接读文档写报告一条龙到底。结果呢？调度器一拿到搜索权就忍不住自己动手它开始疯狂拉结果浅尝辄止根本不做高质量的任务分解最后产出的报告永远是表面级。 Onyx的团队观察到这个致命bug后做了件谁都没敢做的事把调度器的搜索工具彻底砍掉它只能写任务brief只能分解query只能评估下级agent交回来的中间报告但它自己绝不能上网不能检索不能提前下结论这一刀直接逼着调节器做真正的“高阶战略思考” 整个架构只保持两层上面一个纯策略的调节器下面最多6个独立的research agent。三阶段流水线超级清晰 Phase 1 调节器无工具权限把一个复杂问题最多拆成6个聚焦的研究方向写出极度自洽的任务brief Phase 2 把任务分发给3个隔离的研究agent每个agent最多跑8轮“搜索-阅读-思考”循环产出带引用来源的中间报告它们还能接入企业内部Confluence Slack等100+数据源并且严格做文档级权限控制 Phase 3 一个确定性步骤把所有报告去重重新编号生成统一引用地图输出最终高质量报告因为调节器全程不碰原始数据它就不会被“看到第一个结果就想收工”的诱惑污染因为只两层传递信息不会在多层摘要里被扭曲结果Onyx在DeepResearch Bench上拿下No.1全面超越闭源的Claude和ChatGPT 更狠的是它还能无缝接入企业内部知识库这点连很多付费方案都做不到。你今晚就可以试直接去Onyx GitHub仓库链接在下面star一下然后按照readme把整个系统跑起来用CrewAI做整体编排 Mistral的Voxtral做语音输入输出就能复刻一个完全开源的顶级深度研究员。整个框架100%开源架构细节pipeline代码实验数据全在仓库里 Big Tech还在卷“给模型塞更多工具更多上下文”Onyx却用一个“故意阉割”的调节器告诉所有人最聪明的约束往往才是最强的能力。

查看原文

查看缓存全文

缓存时间: 2026/05/26 09:07

这个团队的研究也是有点反常识，对于LLM的研究调度也是有点不一样的研究。

一个开源团队发现把深度研究系统中最聪明的总指挥调节器直接剥夺搜索权限。

反而让整个系统在DeepResearch Bench上直接登顶吊打Claude和ChatGPT。

这个反直觉的设计让Onyx成为目前公开可用的最强深度研究员

它叫Onyx GitHub上已经完全开源你现在就能跑

故事听起来简单却戳穿了几乎所有大厂AI Agent的共同毛病。

传统深度研究系统包括OpenAI o1系列Anthropic和Google的方案都给调节器塞满了工具它能搜索网页打开链接读文档写报告一条龙到底。

结果呢？

调度器一拿到搜索权就忍不住自己动手它开始疯狂拉结果浅尝辄止根本不做高质量的任务分解最后产出的报告永远是表面级。

Onyx的团队观察到这个致命bug后做了件谁都没敢做的事把调度器的搜索工具彻底砍掉

它只能写任务brief只能分解query只能评估下级agent交回来的中间报告但它自己绝不能上网不能检索不能提前下结论

这一刀直接逼着调节器做真正的“高阶战略思考”

整个架构只保持两层上面一个纯策略的调节器下面最多6个独立的research agent。

三阶段流水线超级清晰

Phase 1 调节器无工具权限把一个复杂问题最多拆成6个聚焦的研究方向写出极度自洽的任务brief

Phase 2 把任务分发给3个隔离的研究agent每个agent最多跑8轮“搜索-阅读-思考”循环产出带引用来源的中间报告它们还能接入企业内部Confluence Slack等100+数据源并且严格做文档级权限控制

Phase 3 一个确定性步骤把所有报告去重重新编号生成统一引用地图输出最终高质量报告

因为调节器全程不碰原始数据它就不会被“看到第一个结果就想收工”的诱惑污染因为只两层传递信息不会在多层摘要里被扭曲

结果Onyx在DeepResearch Bench上拿下No.1全面超越闭源的Claude和ChatGPT

更狠的是它还能无缝接入企业内部知识库这点连很多付费方案都做不到。

你今晚就可以试

直接去Onyx GitHub仓库链接在下面star一下然后按照readme把整个系统跑起来用CrewAI做整体编排 Mistral的Voxtral做语音输入输出就能复刻一个完全开源的顶级深度研究员。

整个框架100%开源架构细节pipeline代码实验数据全在仓库里

Big Tech还在卷“给模型塞更多工具更多上下文”Onyx却用一个“故意阉割”的调节器告诉所有人最聪明的约束往往才是最强的能力。

Avi Chawla (@_avichawla): The No. 1 deep researcher beats Claude and ChatGPT with a trick neither uses.

I studied the open-source architecture behind it.

A counterintuitive thing I found is that the orchestrator agent that runs the entire research strategy has no search access.

It can’t query the web

相似文章

@_avichawla: 排名第一的深度研究系统用一个Claude和ChatGPT都没用的技巧击败了它们。我研究了其开源架构……

X AI KOLs Timeline

Onyx开源深度研究系统通过从其编排代理中移除搜索权限，迫使其将查询分解为聚焦的研究线程，从而获得最高排名。其三阶段流水线和两级架构防止了信息失真和过早回答，性能优于OpenAI、Anthropic和Google的专有解决方案。

@IndieDevHailey: Claude Science开源平替爆火！一行命令，DeepSeek/GLM随便切，科研人狂喜！ OpenScience是YC孵化团队推出的开源AI科研工作台，直接平替Claude Science，却彻底无任何限制。给它一个研究目标，它…

X AI KOLs Timeline

文章介绍开源AI科研工作台OpenScience（YC孵化），可平替Claude Science，支持多种模型切换，内置290+科研技能包和30+科学数据库，可自动化科研全流程；同时提及Anthropic官方的Claude Cookbooks开源教程合集。

@berryxia: 科研狗大喜，对于搞科研的你记得看完！就在刚刚Google I/O大会上DeepMind CEO Demis Hassabis直接扔出一句让我脊背发凉（）的话： “Scientific progress is becoming compu…

X AI KOLs Timeline

在Google I/O大会上，DeepMind CEO Demis Hassabis宣布科学进步正在变得可量化计算，推出了Gemini for Science系统，帮助研究人员读论文、写代码、生成假设，使科研像软件一样规模化迭代。

@Phoenixyin13: 认真读完了OpenAI 研究员 Noam Brown 今天的长帖，一个被行业严重低估的现实。 LLM 的真实能力天花板，远高于当前任何 benchmark 所显示的水平。原因，是给它的test-time compute太少了。而随着模型…

X AI KOLs Timeline

解读 OpenAI 研究员 Noam Brown 的观点：LLM 的真实能力天花板远高于当前基准测试显示的水平，因为 test-time compute 投入不足，而更强的模型从额外计算中获益更大。这对 AI 安全评估提出了严峻挑战，因为许多危险能力可能只在长时间、高计算预算下才显现。

@Phoenixyin13: 这是我最重要的信息转发之一。这篇论文的第一作者是我极为钦佩的人，也是我的好朋友，来自@Tsinghua_Uni 姚班顶尖选手Guowei Xu，现在他在@Harvard 进行人工智能大模型的科研工作。 Guowei这篇论文精准击中了目前…

X AI KOLs Timeline

转发介绍一篇由清华姚班毕业生Guowei Xu（目前在哈佛）撰写的论文，该论文精准指出了LLM搜索的两个致命瓶颈：稀疏验证和候选局限，对提升推理能力有重要意义。

相似文章

@_avichawla: 排名第一的深度研究系统用一个Claude和ChatGPT都没用的技巧击败了它们。我研究了其开源架构……

@IndieDevHailey: Claude Science开源平替爆火！一行命令，DeepSeek/GLM随便切，科研人狂喜！ OpenScience是YC孵化团队推出的开源AI科研工作台，直接平替Claude Science，却彻底无任何限制。 给它一个研究目标，它…

@berryxia: 科研狗大喜，对于搞科研的你记得看完！ 就在刚刚Google I/O大会上DeepMind CEO Demis Hassabis直接扔出一句让我脊背发凉（）的话： “Scientific progress is becoming compu…

@Phoenixyin13: 认真读完了OpenAI 研究员 Noam Brown 今天的长帖，一个被行业严重低估的现实。 LLM 的真实能力天花板，远高于当前任何 benchmark 所显示的水平。 原因，是给它的test-time compute太少了。而随着模型…

@Phoenixyin13: 这是我最重要的信息转发之一。 这篇论文的第一作者是我极为钦佩的人，也是我的好朋友，来自@Tsinghua_Uni 姚班顶尖选手Guowei Xu，现在他在@Harvard 进行人工智能大模型的科研工作。 Guowei这篇论文精准击中了目前…

提交意见反馈

@IndieDevHailey: Claude Science开源平替爆火！一行命令，DeepSeek/GLM随便切，科研人狂喜！ OpenScience是YC孵化团队推出的开源AI科研工作台，直接平替Claude Science，却彻底无任何限制。给它一个研究目标，它…

@berryxia: 科研狗大喜，对于搞科研的你记得看完！就在刚刚Google I/O大会上DeepMind CEO Demis Hassabis直接扔出一句让我脊背发凉（）的话： “Scientific progress is becoming compu…

@Phoenixyin13: 认真读完了OpenAI 研究员 Noam Brown 今天的长帖，一个被行业严重低估的现实。 LLM 的真实能力天花板，远高于当前任何 benchmark 所显示的水平。原因，是给它的test-time compute太少了。而随着模型…

@Phoenixyin13: 这是我最重要的信息转发之一。这篇论文的第一作者是我极为钦佩的人，也是我的好朋友，来自@Tsinghua_Uni 姚班顶尖选手Guowei Xu，现在他在@Harvard 进行人工智能大模型的科研工作。 Guowei这篇论文精准击中了目前…