发布 Apodex-1.0 Smol 模型(0.8B、2B、4B 开源权重),专为智能体验证优化 + AgentHarness 评估

Reddit r/LocalLLaMA 模型

摘要

Apodex 发布了开源权重的小型模型(0.8B、2B、4B),专为智能体验证任务优化,同时推出了用于本地智能体工作流的 AgentHarness 评估框架。

嘿 r/LocalLLaMA,我们刚刚发布了 **Apodex 1.0**,除了旗舰 API,我们还发布了 **Smol 模型(0.8B、2B 和 4B)** 的权重。我们的核心研究聚焦于长期任务中的**独立验证**。我们并非仅仅通过扩大参数量来提升原始生成能力,而是尝试使用小型、高度专业化的本地模型来处理智能体循环中的特定子任务(例如来源交叉检验、假设检验和基于工具的综合分析)。我们希望与社区分享开源权重和评估工具,听取大家对本地智能体工作流的看法。# 🧠 设置:这些 Smol 模型有何用途?在本地运行长期智能体时,对每一步都使用一个庞大的 70B+ 模型(例如检查 URL 是否损坏或验证正则表达式)是极其低效的。我们将这些 0.8B、2B 和 4B 模型专门化,作为我们 **AgentOS** 运行时中的子智能体。它们经过训练,能够:1. **事实核查/交叉检验:** 将外部文本输出视为“声明”而非事实依据。2. **执行与验证:** 制定精确的工具调用,并在将结构输出传回主控制器之前进行验证。# 📊 旗舰模型基准测试(供参考)为了让您了解当这些验证循环大规模运行时,完整架构的能力,我们的旗舰模型(**Apodex-1.0-H**)取得了以下成绩:* **DeepSearchQA:** 94.4 | **BrowseComp:** 90.3 * **HLE-Text:** 60.8 * **SuperChem:** 74.2 * **FrontierScience Research:** 46.7(前沿科学推理对我们所有人来说仍然是一个严峻的瓶颈)# 🛠️ 开源组件与本地评估我们已开源了 **AgentHarness**,这是我们用来在本地测试和评估这些智能体工作流且不会在超过 50 步后出现漂移的框架。开源权重模型托管在 Hugging Face 上,评估代码在 GitHub 上。*(注意:为了严格遵守本版规则,我已将所有 Hugging Face 链接、GitHub 仓库以及免费的早期访问网络平台放在置顶评论中。)***对于本地智能体编排感兴趣的用户:*** 你是否尝试过在本地智能体工作流中将较小任务路由到 <4B 模型?你是如何缓解格式化/JSON 一致性漂移的? * 你对专门针对*验证*而非对话流畅度优化小型模型有何看法?期待听到你的反馈,如果你希望我们为这些模型制作一些 GGUF/EXL2 量化版本,请告诉我们!
查看原文

相似文章

@Apodex_AI: 深入阅读博客:https://apodex.com/blog/apodex-1.0 技术报告:http://apodex.com/pdf/20260608 GitHub:https://github.com…

X AI KOLs Following

ApodexAI 发布了 Apodex-1.0,这是一个深度研究模型,作为使用工具的 ReAct 代理运行。其重型模式 Apodex-1.0-H 采用异步代理团队,最多包含 150 个子代理,在深度研究基准测试(包括 BrowseComp、DeepSearchQA、HLE 和 FrontierScience)上取得了新的最先进结果,超越了 GPT-5.5-pro 和 Claude-Opus-4.8 等模型。