发布 Apodex-1.0 Smol 模型（0.8B、2B、4B 开源权重），专为智能体验证优化 + AgentHarness 评估

Reddit r/LocalLLaMA 2026/06/10 02:11 模型

open-source agentic verification small-models reasoning tool-use huggingface agent-harness

摘要

Apodex 发布了开源权重的小型模型（0.8B、2B、4B），专为智能体验证任务优化，同时推出了用于本地智能体工作流的 AgentHarness 评估框架。

嘿 r/LocalLLaMA，我们刚刚发布了 **Apodex 1.0**，除了旗舰 API，我们还发布了 **Smol 模型（0.8B、2B 和 4B）** 的权重。我们的核心研究聚焦于长期任务中的**独立验证**。我们并非仅仅通过扩大参数量来提升原始生成能力，而是尝试使用小型、高度专业化的本地模型来处理智能体循环中的特定子任务（例如来源交叉检验、假设检验和基于工具的综合分析）。我们希望与社区分享开源权重和评估工具，听取大家对本地智能体工作流的看法。# 🧠 设置：这些 Smol 模型有何用途？在本地运行长期智能体时，对每一步都使用一个庞大的 70B+ 模型（例如检查 URL 是否损坏或验证正则表达式）是极其低效的。我们将这些 0.8B、2B 和 4B 模型专门化，作为我们 **AgentOS** 运行时中的子智能体。它们经过训练，能够：1. **事实核查/交叉检验：** 将外部文本输出视为“声明”而非事实依据。2. **执行与验证：** 制定精确的工具调用，并在将结构输出传回主控制器之前进行验证。# 📊 旗舰模型基准测试（供参考）为了让您了解当这些验证循环大规模运行时，完整架构的能力，我们的旗舰模型（**Apodex-1.0-H**）取得了以下成绩：* **DeepSearchQA:** 94.4 | **BrowseComp:** 90.3 * **HLE-Text:** 60.8 * **SuperChem:** 74.2 * **FrontierScience Research:** 46.7（前沿科学推理对我们所有人来说仍然是一个严峻的瓶颈）# 🛠️ 开源组件与本地评估我们已开源了 **AgentHarness**，这是我们用来在本地测试和评估这些智能体工作流且不会在超过 50 步后出现漂移的框架。开源权重模型托管在 Hugging Face 上，评估代码在 GitHub 上。*（注意：为了严格遵守本版规则，我已将所有 Hugging Face 链接、GitHub 仓库以及免费的早期访问网络平台放在置顶评论中。）***对于本地智能体编排感兴趣的用户：*** 你是否尝试过在本地智能体工作流中将较小任务路由到 <4B 模型？你是如何缓解格式化/JSON 一致性漂移的？ * 你对专门针对*验证*而非对话流畅度优化小型模型有何看法？期待听到你的反馈，如果你希望我们为这些模型制作一些 GGUF/EXL2 量化版本，请告诉我们！

查看原文

发布 Apodex-1.0 Smol 模型（0.8B、2B、4B 开源权重），专为智能体验证优化 + AgentHarness 评估

相似文章

@heyshrutimishra: Apodex 1.0 发布，架构确实与众不同。它基于 Qwen3.5 进行后训练，成为一个自我进化的系统：…

推出 AgentOS 与 Apodex 1.0：专为通过独立验证阻止长周期智能体漂移而构建的运行时与模型家族

@Apodex_AI: 深入阅读博客：https://apodex.com/blog/apodex-1.0 技术报告：http://apodex.com/pdf/20260608 GitHub：https://github.com…

CAX-Agent: 一种用于可靠APDL自动化的轻量级Agent工具框架

@sheriyuo: Best-of-N、拒绝采样和基于评分标准的排序都假设你已经有一种可靠的方法来评估候选答案…

提交意见反馈