发布 Apodex-1.0 Smol 模型(0.8B、2B、4B 开源权重),专为智能体验证优化 + AgentHarness 评估
摘要
Apodex 发布了开源权重的小型模型(0.8B、2B、4B),专为智能体验证任务优化,同时推出了用于本地智能体工作流的 AgentHarness 评估框架。
嘿 r/LocalLLaMA,我们刚刚发布了 **Apodex 1.0**,除了旗舰 API,我们还发布了 **Smol 模型(0.8B、2B 和 4B)** 的权重。我们的核心研究聚焦于长期任务中的**独立验证**。我们并非仅仅通过扩大参数量来提升原始生成能力,而是尝试使用小型、高度专业化的本地模型来处理智能体循环中的特定子任务(例如来源交叉检验、假设检验和基于工具的综合分析)。我们希望与社区分享开源权重和评估工具,听取大家对本地智能体工作流的看法。# 🧠 设置:这些 Smol 模型有何用途?在本地运行长期智能体时,对每一步都使用一个庞大的 70B+ 模型(例如检查 URL 是否损坏或验证正则表达式)是极其低效的。我们将这些 0.8B、2B 和 4B 模型专门化,作为我们 **AgentOS** 运行时中的子智能体。它们经过训练,能够:1. **事实核查/交叉检验:** 将外部文本输出视为“声明”而非事实依据。2. **执行与验证:** 制定精确的工具调用,并在将结构输出传回主控制器之前进行验证。# 📊 旗舰模型基准测试(供参考)为了让您了解当这些验证循环大规模运行时,完整架构的能力,我们的旗舰模型(**Apodex-1.0-H**)取得了以下成绩:* **DeepSearchQA:** 94.4 | **BrowseComp:** 90.3
* **HLE-Text:** 60.8
* **SuperChem:** 74.2
* **FrontierScience Research:** 46.7(前沿科学推理对我们所有人来说仍然是一个严峻的瓶颈)# 🛠️ 开源组件与本地评估我们已开源了 **AgentHarness**,这是我们用来在本地测试和评估这些智能体工作流且不会在超过 50 步后出现漂移的框架。开源权重模型托管在 Hugging Face 上,评估代码在 GitHub 上。*(注意:为了严格遵守本版规则,我已将所有 Hugging Face 链接、GitHub 仓库以及免费的早期访问网络平台放在置顶评论中。)***对于本地智能体编排感兴趣的用户:*** 你是否尝试过在本地智能体工作流中将较小任务路由到 <4B 模型?你是如何缓解格式化/JSON 一致性漂移的?
* 你对专门针对*验证*而非对话流畅度优化小型模型有何看法?期待听到你的反馈,如果你希望我们为这些模型制作一些 GGUF/EXL2 量化版本,请告诉我们!
相似文章
@heyshrutimishra: Apodex 1.0 发布,架构确实与众不同。它基于 Qwen3.5 进行后训练,成为一个自我进化的系统:…
Apodex 1.0 是一个基于 Qwen3.5 后训练的自我进化 AI 系统,在 BrowseComp、DeepSearchQA 和 HLE-text 上达到 SOTA。其 4B 迷你模型性能超越 30B 级别模型,并配有 AgentOS 运行时用于任务编排。开放权重可用。
推出 AgentOS 与 Apodex 1.0:专为通过独立验证阻止长周期智能体漂移而构建的运行时与模型家族
AgentOS 和 Apodex 1.0 引入了一个用于长周期智能体任务的运行时和开放权重模型家族,通过独立验证来防止智能体漂移。该平台包含怀疑性子智能体,并在复杂基准测试中取得了高分。
@Apodex_AI: 深入阅读博客:https://apodex.com/blog/apodex-1.0 技术报告:http://apodex.com/pdf/20260608 GitHub:https://github.com…
ApodexAI 发布了 Apodex-1.0,这是一个深度研究模型,作为使用工具的 ReAct 代理运行。其重型模式 Apodex-1.0-H 采用异步代理团队,最多包含 150 个子代理,在深度研究基准测试(包括 BrowseComp、DeepSearchQA、HLE 和 FrontierScience)上取得了新的最先进结果,超越了 GPT-5.5-pro 和 Claude-Opus-4.8 等模型。
CAX-Agent: 一种用于可靠APDL自动化的轻量级Agent工具框架
CAX-Agent是一种轻量级Agent工具框架,利用大语言模型自动化MAPDL有限元仿真,重点在于恢复策略。评估表明,基于模型的恢复实现了最佳的完成率。
@sheriyuo: Best-of-N、拒绝采样和基于评分标准的排序都假设你已经有一种可靠的方法来评估候选答案…
Apodex 发布了 Apodex-1.0,一个深度研究模型,它使用一个带有全局验证的重型代理团队,在包括 BrowseComp、DeepSearchQA 和 HLE 在内的多个基准测试中取得了最先进的结果。