@sheriyuo: Best-of-N、拒绝采样和基于评分标准的排序都假设你已经有一种可靠的方法来评估候选答案…
摘要
Apodex 发布了 Apodex-1.0,一个深度研究模型,它使用一个带有全局验证的重型代理团队,在包括 BrowseComp、DeepSearchQA 和 HLE 在内的多个基准测试中取得了最先进的结果。
查看缓存全文
缓存时间: 2026/06/18 10:13
Best-of-N、rejection sampling 和 rubric-based ranking 都假设你已经有可靠的方法来评估候选答案。这一假设在开放式的探索和研究任务中不成立,因为这些任务没有标准答案可供排名。
Apodex 是一个为深度研究而构建、自我进化的职责重型求解器,它转而专注于验证。其方案通过智能体团队扩展验证能力,采用“生成 - 验证 - 修订”循环(无需参考解法),并明确针对“伪正确性”——即答案在自身校验中存活下来,但实际是错误的。
更广泛的问题是:更强的研究型智能体将更多地来自扩展生成能力,还是来自构建更好的验证系统?这项研究显然押注于后者。
博客:http://apodex.com/blog/apodex-1.0 目前可在 http://apodex.ai 免费试用
Apodex | 自我进化的重型求解器
来源:https://www.apodex.com/blog/apodex-1.0
今天,我们发布 Apodex-1.0,这是我们最新的深度研究模型,运行方式为标准的使用工具的 ReAct 智能体。当我们将其部署在重型模式(一种异步智能体团队,在作答前进行专业化分工、交叉验证并审计自身证据)下时,同一模型成为 Apodex-1.0-H,即我们的旗舰级重型求解器,并在开源与闭源模型的深度研究基准测试中达到了新的最优水平。
当前,智能体遇到的最棘手研究问题并不受限于模型容量,而是受限于模型被允许交互的范围。长周期研究有一个共同的结构性特征:单次前向传播不够用,单个上下文窗口容纳不了全部工作。这些任务要求推理与检索、工具使用和验证交错进行,持续数百步并分多个并行分支。其可靠性不能只来自模型的参数化记忆,而必须来自发现性智能:通过主动与外部世界互动进行推理,并在提交答案之前对这种互动进行自我检查的能力。
通过智能体团队扩展推理
Apodex 通过拓宽框架而非延长单一循环来扩展发现能力。它不是让一个智能体承担全部认知负荷,而是由编排器调度一个重型智能体团队,其专业化子智能体并行探索,并由全局验证器在提交任何答案之前审计已汇集的证据。这种组合带来了出色的结果:在部署中,它能在单个任务中协调多达 150 个子智能体,执行超过 15,000 步,并在公开深度研究套件(BrowseComp、BrowseComp-ZH、DeepSearchQA、HLE 和 FrontierScience 基准)上全部达到新的最优水平。
两个共同设计的部分使之成为可能:带有全局验证的重型智能体团队 和 AgentOS,一个与任务无关的运行时环境。
Apodex 的定位
Apodex-1.0 与最先进的智能体及智能体基础模型的对比。
我们报告的是竞争模型最新的公开基准结果。详情请参见我们的 GitHub (https://github.com/ApodexAI/AgentHarness) 和 Hugging Face (https://huggingface.co/collections/apodex/apodex-1)。
掌控深度研究基准测试
随着人工智能从回答问题转向执行复杂任务,导航、解析和综合开源网络信息的能力成为关键的差异化因素。如上图所示,在搜索套件中,Apodex-1.0-H 在 BrowseComp(90.3)、BrowseComp-ZH(84.1)、DeepSearchQA(94.4)以及使用工具的纯文本 HLE(60.8)上设立了新的最优结果——在 BrowseComp 上略胜 GPT-5.5-pro,在 DeepSearchQA 上领先 Claude-Opus-4.8 和 Kimi-K2.6。在科学研究方面领先幅度更大:Apodex-1.0-H 在 FrontierScience-Research(46.7)、FrontierScience-Olympiad(87.4)和 SuperChem(74.2)上均排名第一——在每个指标上分别以 8 到 12 个绝对百分点领先次优竞争者(Muse Spark 38.3、GPT-5.2 75.0、Gemini-3.0-Pro 63.2)。家族内部的对比量化了重型模式的贡献:它使基础 Apodex-1.0 在 BrowseComp 上提升了 +14.8 分(75.5 → 90.3),在 FrontierScience-Research 上提升了 +18.4 分(28.3 → 46.7)。
表 1:智能体搜索基准性能对比。 在 Humanity’s Last Exam 上,Apodex-1.0 系列和 DeepSeek-V4-Pro-Max 在纯文本子集上测试,其他模型在包含一些多模态问题的完整集上测试。
表 2:智能体科学基准性能对比。
小规模下的强深度研究
深度研究能力的很大一部分存在于训练好的模型本身,而不仅仅是测试时的扩展。为了支持社区,我们开源了一系列小模型——Apodex-1.0-mini(35B-A3B)以及 0.8B、2B 和 4B 变体。仅使用我们的深度研究 SFT 数据训练的紧凑型 Apodex-1.0-4B-SFT 在 BrowseComp 和 BrowseComp-ZH 上均优于所有开源 30B 类模型——证明了仔细的数据构造(而非仅仅参数数量)驱动研究能力。
表 3:更小的开源深度研究模型。HLE 为纯文本。粗体表示 Apodex-1.0-4B-SFT 在对应列领先。
通用广度,保持不变
深度研究的专注并未以牺牲基础模型为代价。我们的后训练旨在保持而非覆盖:在通用知识(MMLU-Pro/Redux、C-Eval)、数学(AIME 2026、HMMT)、指令遵循(IFEval、IFBench)和长上下文(LongBench v2、AA-LCR)方面,Apodex-1.0-mini 和 Apodex-1.0 与对应规模的 Qwen3.5 基础模型大致保持在一个百分点以内。编码能力也保持稳定——Apodex-1.0-H 在 SWE-bench Verified 上达到 79.0,在 Terminal-Bench v2 上达到 58.4。后训练在深度研究维度上是加性的,而非跨维度的权衡。
赌注:推理是团队运动
我们持有一种基本观点:处理困难、开放问题的可靠性不能仅来自模型的参数化记忆。扩展循环并不等同于扩展发现。 当单个智能体承担全部认知负荷时,上下文会拥塞,探索分支会相互污染,而自我反思(单个上下文窗口内唯一的验证机制)会退化。我们拒绝将轨迹长度视为能力的代理指标。Apodex 不是让一个智能体承担全部负荷,而是构建一个智能体团队:编排器分解任务,动态生成专门的子智能体用于检索和验证,并异步协调它们。
重型模式:带有全局验证的智能体团队
Apodex 智能体团队:主智能体派发专家子智能体,其报告被异步收集到共享报告池中,通过验证智能体团队路由冲突,并综合最终报告。
当训练好的模型以重型模式部署时,主智能体接收查询、分解查询,并异步生成专门的子智能体——每个子智能体拥有自己的上下文、提示和工具集——并为其分配检索和验证任务。它们的报告流入一个共享报告池,编排器异步读取其状态表,从不阻塞于最慢的任务。当两份报告不一致、某个具体主张需要依据、或草稿需要进行最终检查时,编排器将工作分派给专门的验证智能体团队——包括冲突审查员、事实核查员和草稿报告审查员。探索完成后,全局验证器对汇集的证据进行推理,生成最终答案。
这个问题带来的根本转变是:从“哪个答案最受认同”变为“全部证据支持什么。”验证在结构上外在于被审计的推理者——验证器的提示是进行评估而非延续推理,并且可以自由地不同意。在我们的部署中,此架构在单个任务内协调多达 150 个子智能体,执行超过 15,000 步——比单智能体循环的饱和点高出两个数量级。而且,重型模式消耗的步数通常比基础智能体更少,而不是更多:验证器过滤掉不产生信息增益的步骤,将计算集中到能推进解决方案的地方。
AgentOS,一个与任务无关的运行时
AgentOS 是承载智能体团队及其相关工作流的运行时,基于一个与任务无关的内核。该内核提供调度、模型和工具路由、事件流、检查点、追踪、成本核算、权限执行和可复用的智能体组件——并且对任何特定任务一无所知。设计原则是严格分离:工作流策略位于狭窄的运行时外观之上,与任务无关的执行机制位于其下。添加新应用只是一个插件代码文件夹,而不是对内核的补丁。运行时永远不会因为新任务而长出新的分支。
示例展示
用例 1:生命科学与临床医学
- 查询类型: 复杂的生物医学研究设计问题
- 问题: 如何设计一个机制验证框架,以确定一个小分子的抗肿瘤活性是否真正源于多靶点协同作用,而非预测偏差、非特异性细胞毒性或单一主导靶点?
- Apodex 输出: 提供了一个四层决策框架(靶点结合 → 因果联系 → 多靶点优越性 → 毒性排除),包含定量通过/不通过阈值、协同模型选择逻辑、CRISPR 基遗传学控制,以及明确的项目终止和重新定位条件。
用例 2:金融
- 查询类型: 复杂的金融/股票研究问题(外汇风险与指引可靠性)
- 问题: 在截至 2025 年第四季度的过去八个季度中,阿迪达斯管理层是否系统性地低估了外汇影响(相对于其自身指引)?考虑到 2026 年初美元反弹及公司披露的对冲比率政策,这段历史将如何影响 2026 财年的营业利润?
- Apodex 输出: 发现了问题中的错误前提(阿迪达斯发布季度外汇指引——它并不发布——全年指引仅为货币中性,外汇影响仅在业绩中披露),然后将问题重新表述为两个可回答的子问题:已实现的全年外汇逆风走势,以及 2026 财年指引的合理性。从原始提交材料中整理了一张八个季度的实际外汇影响表,表明管理层隐含的基线明显低于实际出现的超过 10 亿欧元的 2025 财年外汇逆风,并压力测试了 23 亿欧元 2026 财年营业利润目标中包含的 4 亿欧元外汇加关税综合逆风,相较于对冲头寸和 2026 年初美元走势是否足够。
用例 3:法律
- 查询类型: 复杂的公司法分析问题(特拉华州法律,主要权威来源引用)
- 问题: 一家公司或其其他股东能否成功挑战一项由持股比例低于 15% 的小股东出于纯粹个人敌意行使的合同否决权?该小股东通过股东协议拥有任命所有董事/高管以及预先批准所有交易的权利,适用何种法律框架(考虑 Moelis 案、DGCL §122(18)/SB 313、章程可执行性限制以及控股股东受信义务)?
- Apodex 输出: 提供了一个双理论并行诉讼策略:(A) 一项实际适用性挑战——DGCL §122(18) 使得预先批准权在与只重申 §141(a) 且从未授权否决权的章程冲突时不可执行;(B) 一项受信义务索赔,依据合同控制权将该股东视为 §144(e)(2) 下的控股股东,出于敌意驱动的否决权违反了忠实义务(不受 §144(d)(5) 保护),并在 Kahn v. Lynch 案下的整体公平审查中失败。排除了因 Moelis 案下的懈怠原则而受阻的正面攻击,全程引用主要权威来源,并说明了结论成立的三个条件(以及如果章程后来被修改,理论 A 会如何被削弱)。
现已可用
Apodex 建立在这样一种信念之上:机器推理的飞跃并非来自更大的上下文窗口或更精美的对话,而是来自重型求解器:能够有意识地与外部世界互动、在提交前自我验证、并通过启动团队而非延长单一循环来扩展规模的系统。Apodex 生成的最终报告中的每一项主张都有明确的证据链支持,并在交付前经过独立审计——这种确定性是结构性的,而非统计性的。Apodex-1.0 和 Apodex-1.0-H 现已上线,我们还开源了 Apodex-1.0-mini(35B-A3B)以及三个更小的变体(0.8B、2B、4B),供社区在此基础上进一步开发。
完整技术报告 (https://www.apodex.com/pdf/20260608) *• GitHub (https://github.com/ApodexAI/AgentHarness) *• Hugging Face (https://huggingface.co/collections/apodex/apodex-1) *• Apodex AI (https://www.apodex.ai/) *• Apodex API (https://platform.apodex.ai/)
相似文章
@Apodex_AI: 深入阅读博客:https://apodex.com/blog/apodex-1.0 技术报告:http://apodex.com/pdf/20260608 GitHub:https://github.com…
ApodexAI 发布了 Apodex-1.0,这是一个深度研究模型,作为使用工具的 ReAct 代理运行。其重型模式 Apodex-1.0-H 采用异步代理团队,最多包含 150 个子代理,在深度研究基准测试(包括 BrowseComp、DeepSearchQA、HLE 和 FrontierScience)上取得了新的最先进结果,超越了 GPT-5.5-pro 和 Claude-Opus-4.8 等模型。
@heyshrutimishra: Apodex 1.0 发布,架构确实与众不同。它基于 Qwen3.5 进行后训练,成为一个自我进化的系统:…
Apodex 1.0 是一个基于 Qwen3.5 后训练的自我进化 AI 系统,在 BrowseComp、DeepSearchQA 和 HLE-text 上达到 SOTA。其 4B 迷你模型性能超越 30B 级别模型,并配有 AgentOS 运行时用于任务编排。开放权重可用。
DuMate-DeepResearch:一个可审计的多智能体系统,具备递归搜索与基于评分标准的推理
本技术报告介绍了DuMate-DeepResearch,一个用于深度研究任务的多智能体框架。该框架将智能体核心与工具生态系统解耦,并集成了基于图的动态规划、递归双层执行以及基于评分标准的测试时优化。该系统在两个深度研究基准测试中取得了最先进的结果,展示了可审计智能体基础设施的价值。
@Ex0byt: 一个必须收藏的.. 小但厉害的团队, 4个H100节点, 开源三阶段训练方案, 在8k合成评分任务上训练, fu…
一个小团队在学术预算下,仅使用32块H100和8K个合成样本,训练了一个前沿级别的深度研究智能体,并完全公开了从2B到35B模型的权重、代码和论文,这些模型在关键基准测试中匹配或超越了封闭的前沿智能体。
@_avichawla: 排名第一的深度研究系统用一个Claude和ChatGPT都没用的技巧击败了它们。我研究了其开源架构……
Onyx开源深度研究系统通过从其编排代理中移除搜索权限,迫使其将查询分解为聚焦的研究线程,从而获得最高排名。其三阶段流水线和两级架构防止了信息失真和过早回答,性能优于OpenAI、Anthropic和Google的专有解决方案。