推出 AgentOS 与 Apodex 1.0：专为通过独立验证阻止长周期智能体漂移而构建的运行时与模型家族

Reddit r/AI_Agents 2026/06/10 05:30 产品

agent-os apodex agent-drift verification multi-agent open-source long-horizon

摘要

AgentOS 和 Apodex 1.0 引入了一个用于长周期智能体任务的运行时和开放权重模型家族，通过独立验证来防止智能体漂移。该平台包含怀疑性子智能体，并在复杂基准测试中取得了高分。

嘿，r/AI_Agents，任何构建过生产级、长周期智能体的人都知道 **智能体漂移** 带来的巨大痛苦。你设置了一个可靠的工作流程，但大约在第 30 步时，某个子智能体自信地幻觉出了一个次要前提，或者未能遵循 JSON 模式，导致整个耗时数小时的运行级联失效。在构建 **Apodex 1.0** 时，我们意识到标准的“一刀切”式 LLM 生成并不适合自主、长期的研究任务。为了解决这个问题，我们设计了一个完全围绕 **独立验证** 构建的框架。今天，我们开放免费早期访问权限，包括专用智能体运行时和开放权重的子智能体模型。 # ⚙️ 架构：AgentOS + 怀疑性子智能体我们并没有将所有推理和验证任务都路由到大型商业 API，而是将研究循环分解为一个由 **AgentOS**（我们用于执行和评估智能体工作流程的运行时）管理的专用多智能体图。为了优化延迟和成本，我们训练了一个 **开放权重的 Smol 模型家族（0.8B、2B 和 4B）**，专门作为运行时内的 *怀疑性验证节点*。它们的全部任务包括： 1. **交叉验证输入：** 将外部工具输出或网络搜索结果视为未经验证的“声明”，而非事实真相。 2. **结构强制：** 在将令牌状态传回主控制器之前，捕获语法异常、错误的工具调用或格式漂移。 # 📊 长周期基准测试通过将生成与严格验证分离，我们的旗舰模型架构（**Apodex-1.0-H**）在复杂的研究和科学基准测试中取得了一些非常稳健的结果： * **DeepSearchQA：** 94.4 | **BrowseComp：** 90.3（智能体主动交叉验证搜索向量带来了巨大提升） * **HLE-Text：** 60.8 * **SuperChem：** 74.2 * **FrontierScience Research：** 46.7（自主前沿假设生成仍然是社区面临的一个极其困难的瓶颈） # 🛠️ 开源组件与反馈我们希望从其他智能体构建者那里获得反馈，了解这个验证循环在您的自定义用例中的表现。我们已开源 **AgentHarness**，这是我们用于对这些多步骤运行进行基准测试且避免状态崩溃的测试框架。 *（注：为了保持帖子整洁并遵守社区自我推广规则，我们将指向 Hugging Face 集合、GitHub 仓库和免费网络平台的所有链接放在了下面的评论中。）* **对于这里的构建者：** * 您目前在您的工作流程中如何实现验证循环？您使用独立的评论家智能体，还是将自我修正封装到单个提示链中？ * 在需要超过 40 个步骤的任务中，您发现哪些策略对于缓解状态漂移最为有效？让我们在下方讨论智能体路由和验证策略！

查看原文

推出 AgentOS 与 Apodex 1.0：专为通过独立验证阻止长周期智能体漂移而构建的运行时与模型家族

相似文章

发布 Apodex-1.0 Smol 模型（0.8B、2B、4B 开源权重），专为智能体验证优化 + AgentHarness 评估

@Apodex_AI: 深入阅读博客：https://apodex.com/blog/apodex-1.0 技术报告：http://apodex.com/pdf/20260608 GitHub：https://github.com…

Agent libOS：受库操作系统启发的用于长期运行、能力可控的大语言模型智能体的运行时

我们开源了一个代理运行时，专为人们常忽略的部分构建：在真实硬件上离线运行代理

@Apodex_AI: 认识 𝗔𝗽𝗼𝗱𝗲𝘅 𝟭.𝟬 — 一个用于深度研究的重型智能体团队，树立了最新技术水平（SOTA）！该团队搜索网络，阅读…

提交意见反馈