@Apodex_AI: 深入阅读博客:https://apodex.com/blog/apodex-1.0 技术报告:http://apodex.com/pdf/20260608 GitHub:https://github.com…

X AI KOLs Following 模型

摘要

ApodexAI 发布了 Apodex-1.0,这是一个深度研究模型,作为使用工具的 ReAct 代理运行。其重型模式 Apodex-1.0-H 采用异步代理团队,最多包含 150 个子代理,在深度研究基准测试(包括 BrowseComp、DeepSearchQA、HLE 和 FrontierScience)上取得了新的最先进结果,超越了 GPT-5.5-pro 和 Claude-Opus-4.8 等模型。

深入阅读博客:https://apodex.com/blog/apodex-1.0 技术报告:http://apodex.com/pdf/20260608 GitHub:https://github.com/ApodexAI/AgentHarness… Hugging Face:https://huggingface.co/collections/apodex/apodex-1… Discord:https://discord.gg/TDJA59TCng2 API 平台:https://platform.apodex.ai
查看原文
查看缓存全文

缓存时间: 2026/06/10 23:56

欢迎阅读博客:https://apodex.com/blog/apodex-1.0
技术报告:http://apodex.com/pdf/20260608
GitHub:https://github.com/ApodexAI/AgentHarness
Hugging Face:https://huggingface.co/collections/apodex/apodex-1
Discord:https://discord.gg/TDJA59TCng2
API平台:https://platform.apodex.ai


Apodex | 自我进化的重型求解器

来源:https://www.apodex.com/blog/apodex-1.0
今天,我们发布Apodex-1.0,这是我们最新的深度研究模型,它作为一个标准的工具使用型ReAct Agent运行。当部署在我们的重型模式中——一个异步的Agent团队,在回答之前进行专业化、交叉检查和审计自身证据——同一模型成为Apodex-1.0-H,我们的旗舰级重型求解器,并在开放和闭源模型的深度研究基准测试中达到了新的最先进水平。

今天Agent遇到的最困难的研究问题并非受限于模型能力,而是受限于模型被允许交互的内容。长视野研究有一个共同的结构性特征:单次前向传播不够,单个上下文窗口无法容纳所有工作。这些任务需要推理与检索、工具使用和验证交错进行,并持续数百步和多个并行分支。它们的可靠性不能仅来自模型的参数记忆,而必须来自发现式智能:通过主动与外部世界互动进行推理,并在承诺答案之前自行检查这种互动。

用Agent团队扩展推理

Apodex通过扩大框架而非延长单一循环来扩展发现。不是让一个Agent承担全部认知负荷,而是一个编排器调派一个重型Agent团队,其专门子Agent并行探索,一个全局验证器在提交任何答案之前审计汇总的证据。这种组合带来了出色的结果:在部署中,它可以在单个任务中协调多达150个子Agent超过15,000步,并在公开的深度研究套件——BrowseComp、BrowseComp-ZH、DeepSearchQA、HLE以及FrontierScience基准测试——上创造了新的最先进水平。

两个联合设计的组成部分使之成为可能:一个带有全局验证的重型Agent团队AgentOS,一个承载它的任务无关运行时。

Apodex的定位

Apodex-1.0与最先进的Agent和Agent基础模型的对比。

我们报告了竞争模型的最新公开基准测试结果。详情请参见我们的GitHub (https://github.com/ApodexAI/AgentHarness) 和 Hugging Face (https://huggingface.co/collections/apodex/apodex-1)。

掌控深度研究基准测试

随着AI从回答问题转向执行复杂任务,在开放网络中导航、解析和综合信息的能力成为关键的区分因素。如上图所示,在搜索套件中,Apodex-1.0-H在BrowseComp (90.3)、BrowseComp-ZH (84.1)、DeepSearchQA (94.4) 以及带工具的纯文本HLE (60.8) 上树立了新的最先进水平——在BrowseComp上略胜GPT-5.5-pro,在DeepSearchQA上明显领先Claude-Opus-4.8和Kimi-K2.6。在科学研究上的领先优势更大:Apodex-1.0-H在FrontierScience-Research (46.7)、FrontierScience-Olympiad (87.4) 和SuperChem (74.2) 上位居榜首——每一项都分别比紧随其后的竞争者(Muse Spark 38.3、GPT-5.2 75.0、Gemini-3.0-Pro 63.2)高出8到12个绝对百分点。在家族内部进行比较可以量化重型模式带来的贡献:它将基础Apodex-1.0在BrowseComp上提高了**+14.8分**(75.5 → 90.3),在FrontierScience-Research上提高了**+18.4分**(28.3 → 46.7)。

*表1:Agent搜索基准测试性能对比。*对于“人类最后一次考试”,Apodex-1.0系列和DeepSeek-V4-Pro-Max仅测试了纯文本子集,其他模型测试了包含一些多模态问题的完整集合。

表2:Agent科学基准测试性能对比

小规模模型的强大深度研究能力

深度研究的能力很大一部分来自训练好的模型本身,而不仅仅是测试时的扩展。为了支持社区,我们开源了一系列小模型——Apodex-1.0-mini (35B-A3B) 以及0.8B、2B和4B变体。仅使用我们的深度研究SFT数据训练,紧凑型Apodex-1.0-4B-SFT在BrowseComp和BrowseComp-ZH上均优于所有开源的30B级模型——这证明了精心构建的数据(而非仅仅是参数数量)驱动着研究能力。

表3:较小的开源深度研究模型。HLE为纯文本形式。粗体表示Apodex-1.0-4B-SFT在其所在列中领先。

通才广度,保持不变

深度研究的重点并未牺牲基础模型的能力。我们的后训练旨在保留而非覆盖:在通用知识(MMLU-Pro/Redux、C-Eval)、数学(AIME 2026、HMMT)、指令遵循(IFEval、IFBench)和长上下文(LongBench v2、AA-LCR)方面,Apodex-1.0-mini和Apodex-1.0与其同等规模的Qwen3.5基础模型相比,差距在一个百分点左右。编码能力也保持得很好——Apodex-1.0-H在SWE-bench Verified上达到79.0,在Terminal-Bench v2上达到58.4。后训练在深度研究轴上增加了能力,而非在不同轴之间进行权衡。

核心理念:推理是一项团队运动

我们持有一个基础观点:在困难、开放性问题上的可靠性不能仅来自模型的参数记忆。扩展循环并不等同于扩展发现。当一个Agent独自承担全部认知负荷时,上下文会拥塞,探索分支会相互污染,而自我反思——一个上下文窗口内唯一的验证机制——会退化。我们拒绝将轨迹长度视为能力的代理指标。替代一个Agent承担全部负荷的方式是,Apodex构建一个Agent团队:一个编排器分解任务,并动态生成专门的子Agent用于检索和验证,以异步方式协调它们。

重型模式:带全局验证的Agent团队

Apodex Agent团队:一个主Agent派发专家子Agent,它们的报告异步汇集到一个共享报告池中,通过验证Agent团队路由冲突,并综合生成最终报告。

当训练好的模型以重型模式部署时,一个主Agent接收查询、分解它,并异步生成专门的子Agent——每个子Agent运行自己的上下文、提示和工具集——并分配检索和验证任务。它们的报告流入一个共享报告池,编排器异步读取其状态表,从不阻塞在最慢的任务上。当两份报告不一致、某个具体声明需要依据、或草案准备好进行最终审核时,编排器将工作派发给专门的验证Agent团队——一个冲突审查员、一个事实核查员和一个草案报告审核员。探索完成后,一个全局验证器对汇总的证据进行推理,以产生最终答案。

这个问题带来的根本性转变是:从*“哪个答案最被认可”变为“完整的证据体支持什么”。验证在结构上外在于被审计的推理者——验证器的提示是评估而非继续推理,并且可以自由地提出异议。在我们的部署中,这种架构可以在单个任务内协调多达150个子Agent执行超过15,000步——比单Agent循环的饱和点高出两个数量级。而且,重型模式通常比基础Agent花费更少*的步骤,而非更多:验证器过滤掉不产生信息增益的步骤,并将算力集中在推动解决方案前进的地方。

AgentOS:一个任务无关的运行时

AgentOS是托管Agent团队及其同属工作流的运行时,基于单一任务无关的内核。该内核提供调度、模型和工具路由、事件流、检查点、追踪、成本核算、权限执行以及可复用的Agent组件——并且对任何特定任务一无所知。其设计原则是严格分离:工作流策略位于狭窄的运行时接口之上,而任务无关的执行机制位于其下。添加一个新应用就是一个插件代码文件夹,而不是对内核的补丁。运行时永远不会因为新任务而增加新分支。

示例展示

用例1:生命科学与临床医学
  • **查询类型:**复杂的生物医学研究设计问题
  • **问题:**如何设计一个机制验证框架,以确定一个小分子的抗肿瘤活性是真正源于多靶点协同作用,而非预测偏差、非特异性细胞毒性或单一主导靶点?
  • **Apodex输出:**提供了一个四层决策框架(靶点参与 → 因果联系 → 多靶点优越性 → 毒性排除),包含量化的通过/不通过阈值、协同作用模型选择逻辑、CRISPR-based遗传对照,以及明确的项目终止和重新定位条件。
用例2:金融
  • **查询类型:**复杂的金融/股票研究问题(外汇风险与指引可靠性)
  • **问题:**在截至2025年第四季度的过去八个季度中,阿迪达斯管理层是否系统性地低估了外汇影响(相对于其自身指引),并且——考虑到2026年初美元反弹以及公司披露的对冲比率政策——这段历史将如何影响2026财年营业利润?
  • **Apodex输出:**捕捉到了初始前提的缺陷——阿迪达斯并不发布季度外汇指引(它不发布——全年指引仅为货币中性,外汇影响仅在业绩结果中披露),然后重构为两个可行的替代问题:实现的全年度外汇逆风轨迹以及2026财年指引的可信度。根据原始文件整理了一个八季度实际外汇影响表格,显示管理层的隐含基线远低于实际出现的超过100亿欧元的2025财年逆风,并压力测试了纳入2026财年23亿欧元营业利润目标中的4亿欧元外汇加关税综合拖累,是否足以对冲持仓和2026年初美元走势。
用例3:法律
  • **查询类型:**复杂的公司法分析问题(特拉华州法律,主要权威引证)
  • **问题:**一家公司或其其他股东能否成功挑战一个持有低于15%股权的少数股东基于纯个人恶意行使的合同否决权?该股东通过股东协议拥有委任所有董事/高管和预批准所有交易的权利,而且在何种法律框架下(考虑Moelis案、DGCL §122(18)/SB 313、章程可执行性限制以及控股股东的忠实义务)?
  • **Apodex输出:**提供了一个同时推进的双理论诉讼策略:(A)按具体情况的可执行性挑战——DGCL §122(18)使预批准权在与章程(仅重申§141(a), 从未授权否决权)冲突时不可执行;以及(B)基于忠实义务的主张,根据§144(e)(2)将该股东视为因合同控制而被认定为控股股东,在此情况下,出于恶意的否决权违反忠实义务(不受§144(d)(5)保护),并且根据Kahn v. Lynch案无法通过完全公平审查。排除了因Moelis案中懈怠抗辩而受阻的表面攻击,全程引用主要权威,并陈述了结论成立(以及如果章程后来修订,理论A会如何被削弱)的三个条件。

今日可用

Apodex建立在这样的信念之上:机器推理的飞跃并非来自更大的上下文窗口或更精美的对话,而是来自重型求解器:这些系统有意识地与外部世界互动,在承诺前自我验证,并通过组建团队而非延长单一循环来扩展规模。Apodex生成的最终报告中的每一项声明都有明确的证据链支持,并在交付前经过独立审计——这种确定性是结构性的,而非统计性的。Apodex-1.0和Apodex-1.0-H现已上线,我们开源了Apodex-1.0-mini (35B-A3B) 以及三个更小的变体 (0.8B、2B、4B),供社区在此基础上构建。

完整技术报告 (https://www.apodex.com/pdf/20260608) *• GitHub (https://github.com/ApodexAI/AgentHarness) *• Hugging Face (https://huggingface.co/collections/apodex/apodex-1) *• Apodex AI (https://www.apodex.ai/) *• Apodex API (https://platform.apodex.ai/)

相似文章

推出深度研究

OpenAI Blog

OpenAI 推出深度研究功能,这是 ChatGPT 中由 o3 驱动的代理能力,能够自主进行多步骤互联网研究以生成专业级分析报告,从 2026 年 2 月起扩展访问权限和功能。