@berryxia: 这个团队的研究也是有点反常识,对于LLM的研究调度也是有点不一样的研究。 一个开源团队发现把深度研究系统中最聪明的总指挥调节器直接剥夺搜索权限。 反而让整个系统在DeepResearch Bench上直接登顶吊打Claude和ChatGP…

X AI KOLs Timeline 产品

摘要

一个开源团队发现通过剥夺深度研究系统中调度器的搜索权限,迫使它进行高阶战略思考,从而让Onyx在DeepResearch Bench上超越Claude和ChatGPT,成为最强的开源深度研究员。

这个团队的研究也是有点反常识,对于LLM的研究调度也是有点不一样的研究。 一个开源团队发现把深度研究系统中最聪明的总指挥调节器直接剥夺搜索权限。 反而让整个系统在DeepResearch Bench上直接登顶吊打Claude和ChatGPT。 这个反直觉的设计让Onyx成为目前公开可用的最强深度研究员 它叫Onyx GitHub上已经完全开源你现在就能跑 故事听起来简单却戳穿了几乎所有大厂AI Agent的共同毛病。 传统深度研究系统包括OpenAI o1系列Anthropic和Google的方案都给调节器塞满了工具它能搜索网页打开链接读文档写报告一条龙到底。 结果呢? 调度器一拿到搜索权就忍不住自己动手它开始疯狂拉结果浅尝辄止根本不做高质量的任务分解最后产出的报告永远是表面级。 Onyx的团队观察到这个致命bug后做了件谁都没敢做的事把调度器的搜索工具彻底砍掉 它只能写任务brief只能分解query只能评估下级agent交回来的中间报告但它自己绝不能上网不能检索不能提前下结论 这一刀直接逼着调节器做真正的“高阶战略思考” 整个架构只保持两层上面一个纯策略的调节器下面最多6个独立的research agent。 三阶段流水线超级清晰 Phase 1 调节器无工具权限把一个复杂问题最多拆成6个聚焦的研究方向写出极度自洽的任务brief Phase 2 把任务分发给3个隔离的研究agent每个agent最多跑8轮“搜索-阅读-思考”循环产出带引用来源的中间报告它们还能接入企业内部Confluence Slack等100+数据源并且严格做文档级权限控制 Phase 3 一个确定性步骤把所有报告去重重新编号生成统一引用地图输出最终高质量报告 因为调节器全程不碰原始数据它就不会被“看到第一个结果就想收工”的诱惑污染因为只两层传递信息不会在多层摘要里被扭曲 结果Onyx在DeepResearch Bench上拿下No.1全面超越闭源的Claude和ChatGPT 更狠的是它还能无缝接入企业内部知识库这点连很多付费方案都做不到。 你今晚就可以试 直接去Onyx GitHub仓库链接在下面star一下然后按照readme把整个系统跑起来用CrewAI做整体编排 Mistral的Voxtral做语音输入输出就能复刻一个完全开源的顶级深度研究员。 整个框架100%开源架构细节pipeline代码实验数据全在仓库里 Big Tech还在卷“给模型塞更多工具更多上下文”Onyx却用一个“故意阉割”的调节器告诉所有人最聪明的约束往往才是最强的能力。
查看原文
查看缓存全文

缓存时间: 2026/05/26 09:07

这个团队的研究也是有点反常识,对于LLM的研究调度也是有点不一样的研究。

一个开源团队发现把深度研究系统中最聪明的总指挥调节器直接剥夺搜索权限。

反而让整个系统在DeepResearch Bench上直接登顶吊打Claude和ChatGPT。

这个反直觉的设计让Onyx成为目前公开可用的最强深度研究员

它叫Onyx GitHub上已经完全开源你现在就能跑

故事听起来简单却戳穿了几乎所有大厂AI Agent的共同毛病。

传统深度研究系统包括OpenAI o1系列Anthropic和Google的方案都给调节器塞满了工具它能搜索网页打开链接读文档写报告一条龙到底。

结果呢?

调度器一拿到搜索权就忍不住自己动手它开始疯狂拉结果浅尝辄止根本不做高质量的任务分解最后产出的报告永远是表面级。

Onyx的团队观察到这个致命bug后做了件谁都没敢做的事把调度器的搜索工具彻底砍掉

它只能写任务brief只能分解query只能评估下级agent交回来的中间报告但它自己绝不能上网不能检索不能提前下结论

这一刀直接逼着调节器做真正的“高阶战略思考”

整个架构只保持两层上面一个纯策略的调节器下面最多6个独立的research agent。

三阶段流水线超级清晰

Phase 1 调节器无工具权限把一个复杂问题最多拆成6个聚焦的研究方向写出极度自洽的任务brief

Phase 2 把任务分发给3个隔离的研究agent每个agent最多跑8轮“搜索-阅读-思考”循环产出带引用来源的中间报告它们还能接入企业内部Confluence Slack等100+数据源并且严格做文档级权限控制

Phase 3 一个确定性步骤把所有报告去重重新编号生成统一引用地图输出最终高质量报告

因为调节器全程不碰原始数据它就不会被“看到第一个结果就想收工”的诱惑污染因为只两层传递信息不会在多层摘要里被扭曲

结果Onyx在DeepResearch Bench上拿下No.1全面超越闭源的Claude和ChatGPT

更狠的是它还能无缝接入企业内部知识库这点连很多付费方案都做不到。

你今晚就可以试

直接去Onyx GitHub仓库链接在下面star一下然后按照readme把整个系统跑起来用CrewAI做整体编排 Mistral的Voxtral做语音输入输出就能复刻一个完全开源的顶级深度研究员。

整个框架100%开源架构细节pipeline代码实验数据全在仓库里

Big Tech还在卷“给模型塞更多工具更多上下文”Onyx却用一个“故意阉割”的调节器告诉所有人最聪明的约束往往才是最强的能力。

Avi Chawla (@_avichawla): The No. 1 deep researcher beats Claude and ChatGPT with a trick neither uses.

I studied the open-source architecture behind it.

A counterintuitive thing I found is that the orchestrator agent that runs the entire research strategy has no search access.

It can’t query the web

相似文章

@Phoenixyin13: 这是我最重要的信息转发之一。 这篇论文的第一作者是我极为钦佩的人,也是我的好朋友,来自@Tsinghua_Uni 姚班顶尖选手Guowei Xu,现在他在@Harvard 进行人工智能大模型的科研工作。 Guowei这篇论文精准击中了目前…

X AI KOLs Timeline

转发介绍一篇由清华姚班毕业生Guowei Xu(目前在哈佛)撰写的论文,该论文精准指出了LLM搜索的两个致命瓶颈:稀疏验证和候选局限,对提升推理能力有重要意义。

LearningCircuit/local-deep-research

GitHub Trending (daily)

一款注重隐私的本地深度研究工具,支持多种大语言模型(LLM)和搜索引擎,在保持数据加密和本地化的同时,在问答任务上实现高精度。