@berryxia: 这个团队的研究也是有点反常识,对于LLM的研究调度也是有点不一样的研究。 一个开源团队发现把深度研究系统中最聪明的总指挥调节器直接剥夺搜索权限。 反而让整个系统在DeepResearch Bench上直接登顶吊打Claude和ChatGP…
摘要
一个开源团队发现通过剥夺深度研究系统中调度器的搜索权限,迫使它进行高阶战略思考,从而让Onyx在DeepResearch Bench上超越Claude和ChatGPT,成为最强的开源深度研究员。
查看缓存全文
缓存时间: 2026/05/26 09:07
这个团队的研究也是有点反常识,对于LLM的研究调度也是有点不一样的研究。
一个开源团队发现把深度研究系统中最聪明的总指挥调节器直接剥夺搜索权限。
反而让整个系统在DeepResearch Bench上直接登顶吊打Claude和ChatGPT。
这个反直觉的设计让Onyx成为目前公开可用的最强深度研究员
它叫Onyx GitHub上已经完全开源你现在就能跑
故事听起来简单却戳穿了几乎所有大厂AI Agent的共同毛病。
传统深度研究系统包括OpenAI o1系列Anthropic和Google的方案都给调节器塞满了工具它能搜索网页打开链接读文档写报告一条龙到底。
结果呢?
调度器一拿到搜索权就忍不住自己动手它开始疯狂拉结果浅尝辄止根本不做高质量的任务分解最后产出的报告永远是表面级。
Onyx的团队观察到这个致命bug后做了件谁都没敢做的事把调度器的搜索工具彻底砍掉
它只能写任务brief只能分解query只能评估下级agent交回来的中间报告但它自己绝不能上网不能检索不能提前下结论
这一刀直接逼着调节器做真正的“高阶战略思考”
整个架构只保持两层上面一个纯策略的调节器下面最多6个独立的research agent。
三阶段流水线超级清晰
Phase 1 调节器无工具权限把一个复杂问题最多拆成6个聚焦的研究方向写出极度自洽的任务brief
Phase 2 把任务分发给3个隔离的研究agent每个agent最多跑8轮“搜索-阅读-思考”循环产出带引用来源的中间报告它们还能接入企业内部Confluence Slack等100+数据源并且严格做文档级权限控制
Phase 3 一个确定性步骤把所有报告去重重新编号生成统一引用地图输出最终高质量报告
因为调节器全程不碰原始数据它就不会被“看到第一个结果就想收工”的诱惑污染因为只两层传递信息不会在多层摘要里被扭曲
结果Onyx在DeepResearch Bench上拿下No.1全面超越闭源的Claude和ChatGPT
更狠的是它还能无缝接入企业内部知识库这点连很多付费方案都做不到。
你今晚就可以试
直接去Onyx GitHub仓库链接在下面star一下然后按照readme把整个系统跑起来用CrewAI做整体编排 Mistral的Voxtral做语音输入输出就能复刻一个完全开源的顶级深度研究员。
整个框架100%开源架构细节pipeline代码实验数据全在仓库里
Big Tech还在卷“给模型塞更多工具更多上下文”Onyx却用一个“故意阉割”的调节器告诉所有人最聪明的约束往往才是最强的能力。
Avi Chawla (@_avichawla): The No. 1 deep researcher beats Claude and ChatGPT with a trick neither uses.
I studied the open-source architecture behind it.
A counterintuitive thing I found is that the orchestrator agent that runs the entire research strategy has no search access.
It can’t query the web
相似文章
@_avichawla: 排名第一的深度研究系统用一个Claude和ChatGPT都没用的技巧击败了它们。我研究了其开源架构……
Onyx开源深度研究系统通过从其编排代理中移除搜索权限,迫使其将查询分解为聚焦的研究线程,从而获得最高排名。其三阶段流水线和两级架构防止了信息失真和过早回答,性能优于OpenAI、Anthropic和Google的专有解决方案。
@berryxia: 科研狗大喜,对于搞科研的你记得看完! 就在刚刚Google I/O大会上DeepMind CEO Demis Hassabis直接扔出一句让我脊背发凉()的话: “Scientific progress is becoming compu…
在Google I/O大会上,DeepMind CEO Demis Hassabis宣布科学进步正在变得可量化计算,推出了Gemini for Science系统,帮助研究人员读论文、写代码、生成假设,使科研像软件一样规模化迭代。
@Phoenixyin13: 这是我最重要的信息转发之一。 这篇论文的第一作者是我极为钦佩的人,也是我的好朋友,来自@Tsinghua_Uni 姚班顶尖选手Guowei Xu,现在他在@Harvard 进行人工智能大模型的科研工作。 Guowei这篇论文精准击中了目前…
转发介绍一篇由清华姚班毕业生Guowei Xu(目前在哈佛)撰写的论文,该论文精准指出了LLM搜索的两个致命瓶颈:稀疏验证和候选局限,对提升推理能力有重要意义。
@mylifcc: AI 安全红队神器来了! 刚刚发现一个超硬核的开源项目 —— DeepTeam! 由 Confident AI 出品,基于 DeepEval 打造的 LLM Red Teaming 框架,专门用来“黑”你自己的大模型: 50+ 种真实漏洞…
Confident AI 发布了名为 DeepTeam 的开源 LLM 红队测试框架,支持 50+ 种漏洞检测和 20+ 种对抗攻击,旨在帮助开发者安全地测试大语言模型。
LearningCircuit/local-deep-research
一款注重隐私的本地深度研究工具,支持多种大语言模型(LLM)和搜索引擎,在保持数据加密和本地化的同时,在问答任务上实现高精度。