推出 AgentOS 与 Apodex 1.0:专为通过独立验证阻止长周期智能体漂移而构建的运行时与模型家族

Reddit r/AI_Agents 产品

摘要

AgentOS 和 Apodex 1.0 引入了一个用于长周期智能体任务的运行时和开放权重模型家族,通过独立验证来防止智能体漂移。该平台包含怀疑性子智能体,并在复杂基准测试中取得了高分。

嘿,r/AI_Agents,任何构建过生产级、长周期智能体的人都知道 **智能体漂移** 带来的巨大痛苦。你设置了一个可靠的工作流程,但大约在第 30 步时,某个子智能体自信地幻觉出了一个次要前提,或者未能遵循 JSON 模式,导致整个耗时数小时的运行级联失效。在构建 **Apodex 1.0** 时,我们意识到标准的“一刀切”式 LLM 生成并不适合自主、长期的研究任务。为了解决这个问题,我们设计了一个完全围绕 **独立验证** 构建的框架。今天,我们开放免费早期访问权限,包括专用智能体运行时和开放权重的子智能体模型。 # ⚙️ 架构:AgentOS + 怀疑性子智能体 我们并没有将所有推理和验证任务都路由到大型商业 API,而是将研究循环分解为一个由 **AgentOS**(我们用于执行和评估智能体工作流程的运行时)管理的专用多智能体图。为了优化延迟和成本,我们训练了一个 **开放权重的 Smol 模型家族(0.8B、2B 和 4B)**,专门作为运行时内的 *怀疑性验证节点*。它们的全部任务包括: 1. **交叉验证输入:** 将外部工具输出或网络搜索结果视为未经验证的“声明”,而非事实真相。 2. **结构强制:** 在将令牌状态传回主控制器之前,捕获语法异常、错误的工具调用或格式漂移。 # 📊 长周期基准测试 通过将生成与严格验证分离,我们的旗舰模型架构(**Apodex-1.0-H**)在复杂的研究和科学基准测试中取得了一些非常稳健的结果: * **DeepSearchQA:** 94.4 | **BrowseComp:** 90.3(智能体主动交叉验证搜索向量带来了巨大提升) * **HLE-Text:** 60.8 * **SuperChem:** 74.2 * **FrontierScience Research:** 46.7(自主前沿假设生成仍然是社区面临的一个极其困难的瓶颈) # 🛠️ 开源组件与反馈 我们希望从其他智能体构建者那里获得反馈,了解这个验证循环在您的自定义用例中的表现。我们已开源 **AgentHarness**,这是我们用于对这些多步骤运行进行基准测试且避免状态崩溃的测试框架。 *(注:为了保持帖子整洁并遵守社区自我推广规则,我们将指向 Hugging Face 集合、GitHub 仓库和免费网络平台的所有链接放在了下面的评论中。)* **对于这里的构建者:** * 您目前在您的工作流程中如何实现验证循环?您使用独立的评论家智能体,还是将自我修正封装到单个提示链中? * 在需要超过 40 个步骤的任务中,您发现哪些策略对于缓解状态漂移最为有效? 让我们在下方讨论智能体路由和验证策略!
查看原文

相似文章

@Apodex_AI: 深入阅读博客:https://apodex.com/blog/apodex-1.0 技术报告:http://apodex.com/pdf/20260608 GitHub:https://github.com…

X AI KOLs Following

ApodexAI 发布了 Apodex-1.0,这是一个深度研究模型,作为使用工具的 ReAct 代理运行。其重型模式 Apodex-1.0-H 采用异步代理团队,最多包含 150 个子代理,在深度研究基准测试(包括 BrowseComp、DeepSearchQA、HLE 和 FrontierScience)上取得了新的最先进结果,超越了 GPT-5.5-pro 和 Claude-Opus-4.8 等模型。

Agent libOS:受库操作系统启发的用于长期运行、能力可控的大语言模型智能体的运行时

Hugging Face Daily Papers

Agent libOS 引入了一种受库操作系统启发的、用于大语言模型智能体的运行时基座,将智能体视为具有显式能力、生命周期管理、审计记录和人工审批队列的可调度进程。该设计将信任边界从工具调度移至运行时原语,使得长期运行的智能体能够安全地被调度、授权、恢复和审计。