@qingke_ai: https://x.com/qingke_ai/status/2072899949508063426
摘要
南开大学与联想合作提出Graph of States (GoS),一个面向通用溯因推理的神经符号框架,通过显式信念状态和状态机控制多智能体协作,在医疗诊断和系统故障诊断任务上取得显著提升。该工作被ICML 2026接收。
查看缓存全文
缓存时间: 2026/07/03 22:43
ICML 2026|让 Agent 真正和谐作战:GoS 为多智能体推理构建共享信念状态
罗宇,南开大学博士生
最近,大语言模型在数学、代码等任务上的表现不断刷新上限,但到了医疗诊断、故障排查这类真实的世界任务里,真正的困难是让多个智能体在不确定的动态环境中持续协作推理。
以医疗诊断为例,主医生不可能一开始就让病人把所有检查都做一遍,而是要根据当前诊断方向,动态安排影像科、检验科等不同科室逐步开展检查、持续补充治疗证据,并在过程中不断修改判断。
相比之下,现有的多智能体推理方法虽然看起来做了分工,但通常或停留在简单聚合多个智能体的层面,只是把一个智能体的输出行为放在一个继续处理之前;或者默认所有证据都已经提前备好,缺乏真正的自主调查和动态决策能力。
论文指出,也正因如此,现有的 CoT、ToT、GoT、FoT 等推理框架在迁移到医疗诊断、翻转系统故障排查等场景时,往往会进一步提出四类失败模式:证据形式、上文如此、回溯失败和过早停止。
这些故障并非偶然现象,而是来自两个结构性缺陷:
1.许多现有方法将假设、证据和推理进展混合在非结构化自然语言上下文中,缺乏显式状态表示;
2.缺少状态机制控制,使得智能体是否选择回溯、下钻、终止,几乎都只能靠自由发挥。
因此,在长程推理过程中,智能体往往难以稳定维持推理状态,很容易得出正确的方向,或过早停留在表层结论上。
南开大学研究团队与联想合作提出了Graph of States(GoS),一个面向通用溯因推理任务的神经符号框架,其核心目标是为溯因任务显式构建一个可维护、可回退、可重构的推理状态空间,把究竟隐式、散布的推理过程,转化为受约束的有向搜索。该工作已被ICML 2026正式接收。
目前,xCloud联想智能云正加速将GoS技术封装其智能运维产品体系,助力企业构建零故障、自修复、业务采集的智能运维体系。
01 GoS:给推理加上“显式信念状态”
GoS的核心思想,就是把多智能体协作与显式信念状态建模结合起来。整个系统分为两层:上层是认知层,负责具体领域内的多智能体协作;下层是符号层,负责维护形成推理状态,形式化过程进行导航和约束。
在认知层中,GoS不再采用零散的功能原子,而是让中心智能体和专家智能体分别现实世界中的专业角色。比如在医疗场景中,可以主治医生、影像医生、病理医生;在一般系统场景中,则应用运维、Linux运维、网络运维和数据库运维。其目的,是让推理更贴近真实世界中的协作分工流程,也更利于人们理解和审查其推理过程。
GoS最关键的部分是隐藏层。它不再把调查过程放在非重构历史对话里,而是显着地由因果图和维护机组成的信念状态。先前记录症状、证据、假设关系支持、反驳和细化及其;强调控制当前推理系统,系统决定继续收集证据、向更细粒度下钻,或者在出现冲突证据时退回到更早层时重新判断。
同时,GoS还引入了一个很关键的机制:推理焦点(reasoning focus)。系统在每一步都最高一般不会感知所有可能的方向,而是聚焦当前系统中置信度的假设,把调查和推理资源集中到最值得追踪的线索上。这样有利于把真相轻易发散的探索,变成“有导航的调查”。
02 双层闭环:从推理焦点到证据更新
GoS的推理过程不是简单的“先计划、再执行”,而是一个持续循环的闭环。首先,符号层会当前信念状态找到推理焦点,把其转化为对认知层的调查指令;接着,根据认知层调用工具、获取证据并完成分析,将结果返回给符号层,用于更新因果图、重新建立假设置信度,并触发下车轮状态。
这种封闭使得多智能体协作不再是无约束的自由发挥,而是始终围绕当前最有价值的假设前进;新获得的证据也不再仅仅停留在文本里,而会成为后续推理的依据。
03 关键机制:该回溯时回溯,该下钻时下钻
对于后续因任务来说,真正的困难往往不是“生成一个答案”,而是在推理过程中根据证据变化,按规则决定状态转移。为此,GoS 设计了两类核心状态转换机制:Backtracking 和 Drill-Down。
首先把这些决策完全挖掘智能体自由发挥,GoS 为状态引入了语音的转移规则。
具体来说,当当前推理路径上的某个上层祖先假设在置信度重估后不再是该层最优候选时,系统会回退到对应系统并剪除建立在错误前提上的后续分支;而下钻也不是“觉得差不多了就继续往下想”,而是只有当当前假设同时满足足够的置信度优势和足够的支持证明数量时,系统才会进一步细化到更具体的子假设。
正是这种带有明确约束的控制,使 GoS 面对非单调、动态发生的信息时,不再只是生成连贯的文本,而是能够以更稳定、更可控的方式逐步逼近真正引发的根本原因。
04 实验:在两个高风险真实场景中验证GoS
为了验证 GoS 的有效选择和通用性,论文提供了两个非常具有现实意义的后续场景:医疗诊断和拓扑系统故障诊断。
在医疗诊断任务中,作者基于DiagnosisArena基准做了一个关键的改造:不再一开始就提供完整的辅助检查结果,而是只给患者主诉和基础体格检查,让智能体像真实医生一样主动请求检查、逐步获取外部信息,再完成诊断,从而恢复“主动取证、动态推理”的溯源本质。
在此任务上,GoS 在 Human-as-a-Judge 评估下取得了 39.86% 的匹配度和 78.99% 的相关度,明显控制了所有基线方法,并在更隐蔽下实现了更好的结果。
在多个系统故障诊断任务中,基于真实生产环境构建了150个事件,要求智能体从最终出发,主动查询日志、指标和shell,逐步恢复故障上下文并定位根本原因。
实验结果显示,GoS取得了70.67%的匹配度和88.00%的相关度,其中匹配度比最强基线高出36.67个百分点。
这说明,很多方法虽然能够判断“问题大概在哪个方向”,因此相关性并不低,但要进一步收敛到真正活跃的细粒度根源,仍然需要持续调查、控制状态和体系下钻,而这正是 GoS 的优势。
作者还进一步进行了更全面的消融实验与参数惯性分析。结果证明,GoS的效能关联并非来自于某种偶然技巧,而是确实依赖于推理焦点、因果图和状态机等关键模块的协同作用;
同时,随着神经符号交换轮数、搜索优化以及状态转移阈值的变化,GoS也表现出清晰且可解释的性能趋势,说明该框架不仅有效,而且具备较好的稳定性和可控性。
05 意义:从垂直方法走向通用推理框架
从更大的角度看,GoS的意义不仅仅是把医疗和AIOps两项任务做得更好,而是向前推进了一个更根本的问题:对于真实世界中的高风险任务,智能体需要的并不是更多知识、更多工具、更多内涵,还需要能在不完整信息下显着式维护信念状态,处理冲突证明,在紧急时回溯,在适当时下钻,最终把搜索过程稳定地导向真实根源。
从这个角度看,GoS所面向的其实也是当前智能体研究中非常关键的一类问题,即长视野推理与多轮交互:智能体不只是回答一次,而是要在持续调查和多轮交互中保持状态一致,并逐步收敛。
论文也指出,GoS并未已有的领域特化方法,反而与它们互补。无论是医疗中的高质量知识库和RAG,还是AIOps中的多模式架构和SOP搜索,都与GoS结合,提升可以其在垂直场景中的搜索效率和决策可靠性。
因此,GoS 提供的不是某个智能专用体,而是一套针对前因推理、也针对智能体长程推理的通用推理推理。
作者简介
本文第一作者为罗宇,南开大学智能运维课题组博士一年级,主要研究方向为智能体长程推理、智能体自进化和根因分析。论文作者通讯为南开大学软件学院副教授、博士生导师孙永谦。
他长期深耕智能运维(AIOps)领域,聚焦云重构、数据中心、超算、智算等领域的故障研究,同时致力于多智能体协作与大模型推理优化等前沿方向,持续推动面向复杂系统的智能决策研究。
相似文章
@elliotchen100: 翻译一下盛大旗下 MiroMind 这个工作。 post-training 的下一站,可能就是科学发现本身。 简单说,就是训练一个模型,让它能在不同学科里自己提出科研假设。物理化学生物都能用一套方法,论文中了 ICML 2026,代码开源…
该论文提出了一种可扩展的监督微调方法,用于训练语言模型跨学科提出科研假设,已被ICML 2026接收,代码已开源。
@seclink: https://x.com/seclink/status/2067970118873993482
当前主流纯数据驱动机器人方案存在数据效率低、泛化性差的缺陷,新提出的神经符号物理智能范式将任务拆分为世界建模和规划两步,仅需1-10个演示即可学会新任务,泛化能力远超传统端到端方案,为通用机器人提供了更可靠的路径。
@snowboat84: https://x.com/snowboat84/status/2065215177029787705
本文是AI工程全景系列的中篇,详细介绍了推理优化、模型瘦身(量化、蒸馏、剪枝、MoE)和投机解码等核心技术,综述了从硬件到工程栈的最新进展。
At this point own MRI makes sense. - Google Is Mapping the Human Brain
谷歌发布MoGen模型用合成神经元将连接组重建错误率降低4.4%,节省157人年校对时间;同时AI已能从fMRI解码思想,便携式脑传感器普及引发脑隐私问题。
@GoSailGlobal: https://x.com/GoSailGlobal/status/2058405413737857497
一篇中文文章,整理并翻译了@sairahul1创作的20张手绘AI科普图,覆盖从神经网络到Agent的核心概念,适合初学者系统了解AI技术栈。