@Apodex_AI: 深入阅读博客：https://apodex.com/blog/apodex-1.0 技术报告：http://apodex.com/pdf/20260608 GitHub：https://github.com…

X AI KOLs Following 2026/06/08 16:00 模型

摘要

ApodexAI 发布了 Apodex-1.0，这是一个深度研究模型，作为使用工具的 ReAct 代理运行。其重型模式 Apodex-1.0-H 采用异步代理团队，最多包含 150 个子代理，在深度研究基准测试（包括 BrowseComp、DeepSearchQA、HLE 和 FrontierScience）上取得了新的最先进结果，超越了 GPT-5.5-pro 和 Claude-Opus-4.8 等模型。

深入阅读博客：https://apodex.com/blog/apodex-1.0 技术报告：http://apodex.com/pdf/20260608 GitHub：https://github.com/ApodexAI/AgentHarness… Hugging Face：https://huggingface.co/collections/apodex/apodex-1… Discord：https://discord.gg/TDJA59TCng2 API 平台：https://platform.apodex.ai

查看原文

查看缓存全文

缓存时间: 2026/06/10 23:56

欢迎阅读博客：https://apodex.com/blog/apodex-1.0
技术报告：http://apodex.com/pdf/20260608
GitHub：https://github.com/ApodexAI/AgentHarness
Hugging Face：https://huggingface.co/collections/apodex/apodex-1
Discord：https://discord.gg/TDJA59TCng2
API平台：https://platform.apodex.ai

Apodex | 自我进化的重型求解器

来源：https://www.apodex.com/blog/apodex-1.0
今天，我们发布Apodex-1.0，这是我们最新的深度研究模型，它作为一个标准的工具使用型ReAct Agent运行。当部署在我们的重型模式中——一个异步的Agent团队，在回答之前进行专业化、交叉检查和审计自身证据——同一模型成为Apodex-1.0-H，我们的旗舰级重型求解器，并在开放和闭源模型的深度研究基准测试中达到了新的最先进水平。

今天Agent遇到的最困难的研究问题并非受限于模型能力，而是受限于模型被允许交互的内容。长视野研究有一个共同的结构性特征：单次前向传播不够，单个上下文窗口无法容纳所有工作。这些任务需要推理与检索、工具使用和验证交错进行，并持续数百步和多个并行分支。它们的可靠性不能仅来自模型的参数记忆，而必须来自发现式智能：通过主动与外部世界互动进行推理，并在承诺答案之前自行检查这种互动。

用Agent团队扩展推理

Apodex通过扩大框架而非延长单一循环来扩展发现。不是让一个Agent承担全部认知负荷，而是一个编排器调派一个重型Agent团队，其专门子Agent并行探索，一个全局验证器在提交任何答案之前审计汇总的证据。这种组合带来了出色的结果：在部署中，它可以在单个任务中协调多达150个子Agent超过15,000步，并在公开的深度研究套件——BrowseComp、BrowseComp-ZH、DeepSearchQA、HLE以及FrontierScience基准测试——上创造了新的最先进水平。

两个联合设计的组成部分使之成为可能：一个带有全局验证的重型Agent团队和AgentOS，一个承载它的任务无关运行时。

Apodex的定位

Apodex-1.0与最先进的Agent和Agent基础模型的对比。

我们报告了竞争模型的最新公开基准测试结果。详情请参见我们的GitHub (https://github.com/ApodexAI/AgentHarness) 和 Hugging Face (https://huggingface.co/collections/apodex/apodex-1)。

掌控深度研究基准测试

随着AI从回答问题转向执行复杂任务，在开放网络中导航、解析和综合信息的能力成为关键的区分因素。如上图所示，在搜索套件中，Apodex-1.0-H在BrowseComp (90.3)、BrowseComp-ZH (84.1)、DeepSearchQA (94.4) 以及带工具的纯文本HLE (60.8) 上树立了新的最先进水平——在BrowseComp上略胜GPT-5.5-pro，在DeepSearchQA上明显领先Claude-Opus-4.8和Kimi-K2.6。在科学研究上的领先优势更大：Apodex-1.0-H在FrontierScience-Research (46.7)、FrontierScience-Olympiad (87.4) 和SuperChem (74.2) 上位居榜首——每一项都分别比紧随其后的竞争者（Muse Spark 38.3、GPT-5.2 75.0、Gemini-3.0-Pro 63.2）高出8到12个绝对百分点。在家族内部进行比较可以量化重型模式带来的贡献：它将基础Apodex-1.0在BrowseComp上提高了**+14.8分**（75.5 → 90.3），在FrontierScience-Research上提高了**+18.4分**（28.3 → 46.7）。

*表1：Agent搜索基准测试性能对比。*对于“人类最后一次考试”，Apodex-1.0系列和DeepSeek-V4-Pro-Max仅测试了纯文本子集，其他模型测试了包含一些多模态问题的完整集合。

表2：Agent科学基准测试性能对比

小规模模型的强大深度研究能力

深度研究的能力很大一部分来自训练好的模型本身，而不仅仅是测试时的扩展。为了支持社区，我们开源了一系列小模型——Apodex-1.0-mini (35B-A3B) 以及0.8B、2B和4B变体。仅使用我们的深度研究SFT数据训练，紧凑型Apodex-1.0-4B-SFT在BrowseComp和BrowseComp-ZH上均优于所有开源的30B级模型——这证明了精心构建的数据（而非仅仅是参数数量）驱动着研究能力。

表3：较小的开源深度研究模型。HLE为纯文本形式。粗体表示Apodex-1.0-4B-SFT在其所在列中领先。

通才广度，保持不变

深度研究的重点并未牺牲基础模型的能力。我们的后训练旨在保留而非覆盖：在通用知识（MMLU-Pro/Redux、C-Eval）、数学（AIME 2026、HMMT）、指令遵循（IFEval、IFBench）和长上下文（LongBench v2、AA-LCR）方面，Apodex-1.0-mini和Apodex-1.0与其同等规模的Qwen3.5基础模型相比，差距在一个百分点左右。编码能力也保持得很好——Apodex-1.0-H在SWE-bench Verified上达到79.0，在Terminal-Bench v2上达到58.4。后训练在深度研究轴上增加了能力，而非在不同轴之间进行权衡。

核心理念：推理是一项团队运动

我们持有一个基础观点：在困难、开放性问题上的可靠性不能仅来自模型的参数记忆。扩展循环并不等同于扩展发现。当一个Agent独自承担全部认知负荷时，上下文会拥塞，探索分支会相互污染，而自我反思——一个上下文窗口内唯一的验证机制——会退化。我们拒绝将轨迹长度视为能力的代理指标。替代一个Agent承担全部负荷的方式是，Apodex构建一个Agent团队：一个编排器分解任务，并动态生成专门的子Agent用于检索和验证，以异步方式协调它们。

重型模式：带全局验证的Agent团队

Apodex Agent团队：一个主Agent派发专家子Agent，它们的报告异步汇集到一个共享报告池中，通过验证Agent团队路由冲突，并综合生成最终报告。

当训练好的模型以重型模式部署时，一个主Agent接收查询、分解它，并异步生成专门的子Agent——每个子Agent运行自己的上下文、提示和工具集——并分配检索和验证任务。它们的报告流入一个共享报告池，编排器异步读取其状态表，从不阻塞在最慢的任务上。当两份报告不一致、某个具体声明需要依据、或草案准备好进行最终审核时，编排器将工作派发给专门的验证Agent团队——一个冲突审查员、一个事实核查员和一个草案报告审核员。探索完成后，一个全局验证器对汇总的证据进行推理，以产生最终答案。

这个问题带来的根本性转变是：从*“哪个答案最被认可”变为“完整的证据体支持什么”。验证在结构上外在于被审计的推理者——验证器的提示是评估而非继续推理，并且可以自由地提出异议。在我们的部署中，这种架构可以在单个任务内协调多达150个子Agent执行超过15,000步——比单Agent循环的饱和点高出两个数量级。而且，重型模式通常比基础Agent花费更少*的步骤，而非更多：验证器过滤掉不产生信息增益的步骤，并将算力集中在推动解决方案前进的地方。

AgentOS：一个任务无关的运行时

AgentOS是托管Agent团队及其同属工作流的运行时，基于单一任务无关的内核。该内核提供调度、模型和工具路由、事件流、检查点、追踪、成本核算、权限执行以及可复用的Agent组件——并且对任何特定任务一无所知。其设计原则是严格分离：工作流策略位于狭窄的运行时接口之上，而任务无关的执行机制位于其下。添加一个新应用就是一个插件代码文件夹，而不是对内核的补丁。运行时永远不会因为新任务而增加新分支。

示例展示

用例1：生命科学与临床医学

**查询类型：**复杂的生物医学研究设计问题
**问题：**如何设计一个机制验证框架，以确定一个小分子的抗肿瘤活性是真正源于多靶点协同作用，而非预测偏差、非特异性细胞毒性或单一主导靶点？
**Apodex输出：**提供了一个四层决策框架（靶点参与 → 因果联系 → 多靶点优越性 → 毒性排除），包含量化的通过/不通过阈值、协同作用模型选择逻辑、CRISPR-based遗传对照，以及明确的项目终止和重新定位条件。

用例2：金融

**查询类型：**复杂的金融/股票研究问题（外汇风险与指引可靠性）
**问题：**在截至2025年第四季度的过去八个季度中，阿迪达斯管理层是否系统性地低估了外汇影响（相对于其自身指引），并且——考虑到2026年初美元反弹以及公司披露的对冲比率政策——这段历史将如何影响2026财年营业利润？
**Apodex输出：**捕捉到了初始前提的缺陷——阿迪达斯并不发布季度外汇指引（它不发布——全年指引仅为货币中性，外汇影响仅在业绩结果中披露），然后重构为两个可行的替代问题：实现的全年度外汇逆风轨迹以及2026财年指引的可信度。根据原始文件整理了一个八季度实际外汇影响表格，显示管理层的隐含基线远低于实际出现的超过100亿欧元的2025财年逆风，并压力测试了纳入2026财年23亿欧元营业利润目标中的4亿欧元外汇加关税综合拖累，是否足以对冲持仓和2026年初美元走势。

用例3：法律

**查询类型：**复杂的公司法分析问题（特拉华州法律，主要权威引证）
**问题：**一家公司或其其他股东能否成功挑战一个持有低于15%股权的少数股东基于纯个人恶意行使的合同否决权？该股东通过股东协议拥有委任所有董事/高管和预批准所有交易的权利，而且在何种法律框架下（考虑Moelis案、DGCL §122(18)/SB 313、章程可执行性限制以及控股股东的忠实义务）？
**Apodex输出：**提供了一个同时推进的双理论诉讼策略：（A）按具体情况的可执行性挑战——DGCL §122(18)使预批准权在与章程（仅重申§141(a), 从未授权否决权）冲突时不可执行；以及（B）基于忠实义务的主张，根据§144(e)(2)将该股东视为因合同控制而被认定为控股股东，在此情况下，出于恶意的否决权违反忠实义务（不受§144(d)(5)保护），并且根据Kahn v. Lynch案无法通过完全公平审查。排除了因Moelis案中懈怠抗辩而受阻的表面攻击，全程引用主要权威，并陈述了结论成立（以及如果章程后来修订，理论A会如何被削弱）的三个条件。

今日可用

Apodex建立在这样的信念之上：机器推理的飞跃并非来自更大的上下文窗口或更精美的对话，而是来自重型求解器：这些系统有意识地与外部世界互动，在承诺前自我验证，并通过组建团队而非延长单一循环来扩展规模。Apodex生成的最终报告中的每一项声明都有明确的证据链支持，并在交付前经过独立审计——这种确定性是结构性的，而非统计性的。Apodex-1.0和Apodex-1.0-H现已上线，我们开源了Apodex-1.0-mini (35B-A3B) 以及三个更小的变体 (0.8B、2B、4B)，供社区在此基础上构建。

完整技术报告 (https://www.apodex.com/pdf/20260608) *• GitHub (https://github.com/ApodexAI/AgentHarness) *• Hugging Face (https://huggingface.co/collections/apodex/apodex-1) *• Apodex AI (https://www.apodex.ai/) *• Apodex API (https://platform.apodex.ai/)

@Apodex_AI: 深入阅读博客：https://apodex.com/blog/apodex-1.0 技术报告：http://apodex.com/pdf/20260608 GitHub：https://github.com…

Apodex | 自我进化的重型求解器

用Agent团队扩展推理

Apodex的定位

掌控深度研究基准测试

小规模模型的强大深度研究能力

通才广度，保持不变

核心理念：推理是一项团队运动

重型模式：带全局验证的Agent团队

AgentOS：一个任务无关的运行时

示例展示

用例1：生命科学与临床医学

用例2：金融

用例3：法律

今日可用

相似文章

@Apodex_AI: 认识 𝗔𝗽𝗼𝗱𝗲𝘅 𝟭.𝟬 — 一个用于深度研究的重型智能体团队，树立了最新技术水平（SOTA）！该团队搜索网络，阅读…

@_avichawla: 排名第一的深度研究系统用一个Claude和ChatGPT都没用的技巧击败了它们。我研究了其开源架构……

推出 AgentOS 与 Apodex 1.0：专为通过独立验证阻止长周期智能体漂移而构建的运行时与模型家族

发布 Apodex-1.0 Smol 模型（0.8B、2B、4B 开源权重），专为智能体验证优化 + AgentHarness 评估

推出深度研究

提交意见反馈